Mistral AI发表Mistral Large 2,挑战GTP-4o与Llama 3.1 405B

去年才成立的Mistral AI脚步飞快,于本周三(7/24)推出了具备1,230亿个参数,支援12.8万个Token脉络长度的Mistral Large 2 ,此一Mistral AI的旗舰模型宣称已可比美OpenAI的GTP-4o及Meta刚开源的Llama 3.1 405B

Mistral Large 2支援包括中文、日文、韩文及德文等数十种语言,以及涵盖Python、Java、C、C++、JavaScript与Bash等逾80种程式语言,它在设计时即著眼于基于长脉络应用的单节点推论,其预训练版本的MMLU基准测试准确率为84%,低于Llama 3.1 405B的88.6%,或是GPT-4o的88.7%。

不过,Mistral AI强调Mistral Large 2在程式码及数学上的表现,足以比美同为开源模型的Llama 3.1 405B;也投入了大量资源来强化模型的推论能力,重点之一是尽量减少模型虚构答案,以确保它提供可靠及准确的输出;另也改善了Mistral Large 2在指令遵循与对话上的能力。

Mistral AI比较了Mistral Large 2、Llama 3.1 405B及GPT-4o在C++、Bash、Java、TypeScript、PHP与C#的程式语言的表现,平均表现最好的是GPT-4o的75.3%,Large 2以74.4%居次,Llama 3.1 405B则是73.4%。若单看不同的程式语言,Mistral Large 2在Java的表现最佳,准确率高达84.2%,胜过GPT-4o与Llama 3.1 405B的82.9%。

图片来源/Mistral AI

至于GPT-4o则是在C++、TypeScript或PHP上的成绩居冠,Llama 3.1 405B在Bash上取得领先。

Mistral Large 2采用的是Mistral研究授权,代表可供研究与非商业的免费使用或变更,商业授权则必须与Mistral AI接洽。