Anthropic發表宣稱可擊敗OpenAI GPT-4與Google Gemini 1.0 Ultra的Claude 3模型

图片来源:

Anthropic

新兴的AI业者Anthropic周一（3/4）发表了全新的Claude 3系列模型，涵盖功能最低阶的Claude 3 Haiku、中阶的Claude 3 Sonnet，以及最强大的Claude 3 Opus，它们的预设值皆支援20万个Token的脉络，并宣称其中的Claude 3 Opus在许多基准测试上超越了OpenAI GPT-4与Google Gemini 1.0 Ultra。

Anthropic在2021年由曾担任OpenAI研究副总裁的Dario Amodei，以及其妹妹、同样身为OpenAI资深员工的Daniela Amodei共同创立，是OpenAI最大的竞争对手之一，而OpenAI与微软在资金及服务上的紧密关系，使得Anthropic成为其它科技巨头竞逐的对象，包括Google在2022年注资3亿美元取得10%的Anthropic股份，去年底承诺加码投资20亿美元，至于Amazon也在去年宣布将挹注40亿美元至Anthropic，并换得让AWS成为Anthropic主要云端服务供应商的交易。

Anthropic本周所发表的Claude 3模型强化了各方面的能力，涵盖分析、预测、细致的内容建立、程式码生成，以及在西班牙文、日文与法文等非英文语言的对话能力；它也拥有更复杂的视觉功能，得以处理各种不同的视觉格式，包括照片、图表、图像与技术图等；还可带来近乎即时的结果，可支援即时客户聊天、自动完成与资料汲取任务。

另一方面，过去的Claude模型经常作出不必要的拒绝，显示它缺乏对语意的理解，最新的Claude 3则对提示表现出更细致的理解能力，可辨识真正的伤害，明显降低了拒绝回答无害提示的频率。

Claude 3最受瞩目的是其中的Claude 3 Opus模型在许多基准测试上，超越了OpenAI GPT-4与Google Gemini 1.0 Ultra。例如在MMLU本科水平专家知识上达到86.8%，击败GPT-4的86.4%与Gemini 1.0 Ultra的83.7%，研究生专家推论（GPQA）以50.4%超越OpenAI GPT-4的35.7%。其它凌驾这两大模型的基础测试还有基础数学（GSM8K）、程式码生成能力HumanEval与文字推论等。

尽管Claude 3模型初期仅支援20万个Token的脉络，但3种型号都可接受超过100万个Token的输入，Anthropic将根据需求提供给需要强化处理能力的客户。为了有效地处理冗长的上下文，这些模型需要强大的回忆能力，在评估模型记忆的「大海捞针」（Needle In A Haystack，NIAH）基准测试中，Claude 3 Opus不仅达到超过99%的准确率，在某些情况下，甚至能够辨识出此针是否是人为插入的。

Anthropic亦标榜Claude 3模型的偏差少于先前的模型，也更擅长遵循复杂的多步骤指令，或是生成诸如JSON等格式的结构化输出，以更轻松地将Claude 3模型应用在自然语言分类或情绪分析上。

Claude 3 Haiku、Claude 3 Sonnet与Claude 3 Opus各自可支援不同的应用，Claude 3 Haiku是最袖珍及最快速的模型，专为模仿人类互动的即时回应与无缝AI体验而设计，每100万个Token的输入费用为0.25美元，输出为1.25美元；Claude 3 Sonnet属于相对均衡的模型，在智慧与速度中取得平衡，适用于企业负载及大规模的AI部署，每100万个Token的输入/输出费用分别是3美元及15美元；最强大的Claude 3 Opus可处理高度复杂的任务，可带来人类等级的理解能力，每100万个Token的输入/输出费用分别是15美元与75美元。

Anthropic的API现已支援Claude 3 Sonnet与Claude 3 Opus，使用者亦可透过claude.ai、Amazon Bedrock与Google Cloud的Vertex AI Model Garden使用Claude 3 Sonnet，Claude 3 Opus目前则仅开放Claude Pro订阅用户使用。至于Claude 3 Haiku也会在近期上市。

图片来源_Anthropic

Anthropic发表宣称可击败OpenAI GPT-4与Google Gemini 1.0 Ultra的Claude 3模型