Anthropic
新兴的AI业者Anthropic周一(3/4)发表了全新的Claude 3系列模型,涵盖功能最低阶的Claude 3 Haiku、中阶的Claude 3 Sonnet,以及最强大的Claude 3 Opus,它们的预设值皆支援20万个Token的脉络,并宣称其中的Claude 3 Opus在许多基准测试上超越了OpenAI GPT-4与Google Gemini 1.0 Ultra。
Anthropic在2021年由曾担任OpenAI研究副总裁的Dario Amodei,以及其妹妹、同样身为OpenAI资深员工的Daniela Amodei共同创立,是OpenAI最大的竞争对手之一,而OpenAI与微软在资金及服务上的紧密关系,使得Anthropic成为其它科技巨头竞逐的对象,包括Google在2022年注资3亿美元取得10%的Anthropic股份,去年底承诺加码投资20亿美元,至于Amazon也在去年宣布将挹注40亿美元至Anthropic,并换得让AWS成为Anthropic主要云端服务供应商的交易。
Anthropic本周所发表的Claude 3模型强化了各方面的能力,涵盖分析、预测、细致的内容建立、程式码生成,以及在西班牙文、日文与法文等非英文语言的对话能力;它也拥有更复杂的视觉功能,得以处理各种不同的视觉格式,包括照片、图表、图像与技术图等;还可带来近乎即时的结果,可支援即时客户聊天、自动完成与资料汲取任务。
另一方面,过去的Claude模型经常作出不必要的拒绝,显示它缺乏对语意的理解,最新的Claude 3则对提示表现出更细致的理解能力,可辨识真正的伤害,明显降低了拒绝回答无害提示的频率。
Claude 3最受瞩目的是其中的Claude 3 Opus模型在许多基准测试上,超越了OpenAI GPT-4与Google Gemini 1.0 Ultra。例如在MMLU本科水平专家知识上达到86.8%,击败GPT-4的86.4%与Gemini 1.0 Ultra的83.7%,研究生专家推论(GPQA)以50.4%超越OpenAI GPT-4的35.7%。其它凌驾这两大模型的基础测试还有基础数学(GSM8K)、程式码生成能力HumanEval与文字推论等。
尽管Claude 3模型初期仅支援20万个Token的脉络,但3种型号都可接受超过100万个Token的输入,Anthropic将根据需求提供给需要强化处理能力的客户。为了有效地处理冗长的上下文,这些模型需要强大的回忆能力,在评估模型记忆的「大海捞针」(Needle In A Haystack,NIAH)基准测试中,Claude 3 Opus不仅达到超过99%的准确率,在某些情况下,甚至能够辨识出此针是否是人为插入的。
Anthropic亦标榜Claude 3模型的偏差少于先前的模型,也更擅长遵循复杂的多步骤指令,或是生成诸如JSON等格式的结构化输出,以更轻松地将Claude 3模型应用在自然语言分类或情绪分析上。
Claude 3 Haiku、Claude 3 Sonnet与Claude 3 Opus各自可支援不同的应用,Claude 3 Haiku是最袖珍及最快速的模型,专为模仿人类互动的即时回应与无缝AI体验而设计,每100万个Token的输入费用为0.25美元,输出为1.25美元;Claude 3 Sonnet属于相对均衡的模型,在智慧与速度中取得平衡,适用于企业负载及大规模的AI部署,每100万个Token的输入/输出费用分别是3美元及15美元;最强大的Claude 3 Opus可处理高度复杂的任务,可带来人类等级的理解能力,每100万个Token的输入/输出费用分别是15美元与75美元。
Anthropic的API现已支援Claude 3 Sonnet与Claude 3 Opus,使用者亦可透过claude.ai、Amazon Bedrock与Google Cloud的Vertex AI Model Garden使用Claude 3 Sonnet,Claude 3 Opus目前则仅开放Claude Pro订阅用户使用。至于Claude 3 Haiku也会在近期上市。
图片来源_Anthropic