GPT-4竞争者报到:Gemini 1.5、Mistral Large、Claude 3 Opus与Inflection-2.5

图片来源/

在几周前尚无对手的OpenAI GPT-4,最近忽然冒出了4个竞争对手,它们分别是Google的Gemini 1.5、Mistral AI的Mistral Large、Anthropic的Claude 3,以及Inflection AI的Inflection-2.5,这些在这一个月以来陆续现身的新模型皆宣称足以比美GPT-4,当中令研究人员觉得最有希望的则是Claude 3。

开发Bito AI程式码撰写工具的Bito曾比较了Gemini 1.5 Pro与GPT-4 Turbo,发现Gemini 1.5 Pro在一般推论及理解任务,影片理解,以及音讯处理上胜过GPT-4 Turbo。而GPT-4 Turbo则在解决复杂数学问题的能力,程式码生成或图像理解上优于Gemini 1.5 Pro,认为它们的最佳应用将取决于当前任务的特定需求。

而在Mistral AI发表Mistral Large之后,即在OpenAI论坛掀起了讨论,有研究人员提出,Mistral Large几乎在所有基准测试上都不如GPT-4 ,但它的价格只有GPT-4的8成,询问是否值得切换。底下的回应分成两派,一派认为GPT-4 Turbo不管是在推论或解决复杂问题上都大胜Mistral Large,所生成的答案也更为精确,很值得那多出的20%,另一派则是推崇Mistral AI的开源政策。

至于锁定资料科学、机器学习与AI的内容网站KDnuggets认为,Anthropic所发表的Claude 3在所有LLM基准测试中都优于GPT-4和Gemini Ultra,已是AI领域新的领导者,而且3.0版最明显的改善为视觉能力,使得它可以处理包括照片、图表、图像与技术图等各种视觉格式。

图片来源/Anthropic

只不过,即使基准测试领先GPT-4,但Claude 3的速度仍不如GPT-4和Gemini Ultra。

Reddit上也有GPT-4 Turbo与Claude 3 Opus比较的讨论,多数人赞成Claude 3 Opus的写作与处理文章的能力胜过GPT-4 Turbo,有人说GPT-4 Turbo对复杂问题的处理能力优于Claude 3 Opus,有人说Claude 3 Opus所生成的程式码品质与GPT-4 Turbo相当,但更人性化。

总之,不少人认为Claude 3 Opus很有前途。

而Inflection AI所推出的Inflection-2.5模型则是应用在Pi聊天机器人上,是个强调同理心的聊天机器人。Inflection-2.5的基准测试都只是接近GPT-4水平,并未超越,但其进行训练所使用的运算量,只有GPT-4的40%。目前并未特别有人比较Inflection-2.5与GPT-4。

上述的AI新创每家都有实力坚强的背景,例如Mistral AI的多名共同创办人分别曾是Google DeepMind与Meta的AI研究人员;Anthropic则是由曾担任OpenAI研究副总裁的Dario Amodei,以及其妹妹、同样身为OpenAI资深员工的Daniela Amodei共同创立;Inflection AI的共同创办人暨执行长Mustafa Suleyman也是DeepMind的共同创办人,之后于Google负责将AI整合到各种Google产品中。

多款足以与GPT-4比美的模型在短时间内相继问世,令外界讶异AI世界的成长速度,也相信现在最强大的GPT-4很快就会成为大型语言模型的平均值。