Anthropic發表Claude 3.5 Sonnet，評測凌駕Claude 3 Opus與GPT-4o

图片来源:

Anthropic

OpenAI主要竞争对手之一Anthropic本周发表了Claude 3.5 Sonnet，Sonnet为Claude的中阶模型，但Anthropic宣称它的性能与效率已超越Claude 3.0的高阶模型Opus，在大多数的评测上亦凌驾了OpenAI于今年5月推出的GPT-4o，此外，Anthropic也在网页版的Claude.ai预览一项新的Artifacts功能，可于个别的工作空间即时呈现所有的生成结果。

Claude 3.5 Sonnet的执行速度是Claude 3 Opus的两倍，Anthropic内部以自然语言描述要求不同模型修补开源程式码臭虫或新增功能，发现Claude 3.5 Sonnet解决了64%的问题，超越了Claude 3 Opus的38%。在提供指示与相关工具之后，Claude 3.5 Sonnet得以独立撰写、编辑与执行程式码，展现了复杂的推论及故障排除能力，可轻松处理程式码的转换，令它能够更有效率地更新老旧应用程式并迁移程式码库。

此外，Claude 3.5 Sonnet不仅在所有基准评测上都凌驾Claude 3 Opus，它在GPQA、HumanEval、MGSM、DROP、BIG-Bench-Hard或是与视觉有关的MathVista、AI2D、Relaxed accuracy及ANLS score等评测上也超越了GPT-4o，只于MMLU、MATH及MMMU上略逊GPT-4o。

Anthropic亦开始于Claude.ai上预览新的Artifacts功能，在启用Artifacts之后，当使用者与Claude模型对话时，旁边会出现一个新视窗，同步呈现模型所生成的所有内容，不管是程式码、文字档案或是网站设计。该功能替使用者创造了一个动态的工作空间，允许使用者即时检视、编辑及建置源自Claude模型的内容，以无缝将AI生成的内容整合到使用者的专案或工作流程之中。

Anthropic指出，Artifacts功能意味著Claude将从对话式AI转至协作工作环境，且很快就会支援团队协作，最终令整个组织能够在一个共用空间中集中其知识、文件，或是正在进行中的任务，让Claude扮演一个在使用者有需要时就可出现的团队成员。

一般使用者透过Claude.ai及Claude iOS程式就可免费存取Claude 3.5 Sonnet，至于 Claude Pro与Claude Team 方案的订阅用户则有更高速率的存取权限。开发者亦可透过Anthropic API、Amazon Bedrock及Google Cloud的Vertex AI存取该模型，输入100万Token的费用为3美元，输出100万个Token的费用为15美元，且支援20万个Token的脉络长度。

Anthropic表示，该公司的目标是每几个月就会大幅改善智慧、速度与成本之间的权衡曲线，今年也会发表低阶的Claude 3.5 Haiku 与高阶的Claude 3.5 Opus。且除了下一代模型之外，该公司亦正在建置新模型来支援企业的应用，包括整合企业应用程式；亦正在探索诸如Memory等功能，以让Claude能够记忆使用者的偏好与交流纪录，以让它更个人化及更有效率。

图片来源／Anthropic

Anthropic发表Claude 3.5 Sonnet，评测凌驾Claude 3 Opus与GPT-4o