Anthropic更新Claude 3.5 Sonnet,新增操作电脑能力

图片撷取自Anthropic官方网页

AI模型开发业者Anthropic周二(10/22)更新了Claude 3.5 Sonnet,新版Claude 3.5 Sonnet首度开放使用者测试其电脑操作能力,也特别改善了程式码撰写及工具使用任务,并宣布将在10月底释出Claude 3.5 Haiku。

Claude Sonnet为Anthropic所开发的中阶模型,著重在取得智力与速度的平衡,Claude Haiku则是最小也最低阶的模型,主打即时回应,而最大的模型Claude Opus则是用来处理更复杂的任务,目前Anthropic仅发表Sonnet 3.5及Haiku 3.5,并未提及Opus 3.5。

为了训练Claude使用电脑,Anthropic打造了一个API以让Claude能够感知电脑介面并与之互动,开发人员即可整合该API,要求Claude将指令(例如:利用我电脑上的资料来填入表格)转成电脑命令(检查试算表,移动游标以开启浏览器,导航至最相关的页面,以及填入表格等)。

Anthropic说,现代的大量工作都是透过电脑进行的,令AI能够像人类一样与电脑互动,将解锁这一代AI助手无法处理的大量应用。这几年AI有许多重要的发展,像是执行复杂逻辑推理的能力,以及查看与理解图像的能力,而下一个重要领域则是使用电脑,让AI模型可直接按照指示使用各种软体,而不必再透过特制的软体与电脑互动。开发人员可利用此一功能来自动化重复的流程,建置与测试软体,或是执行诸如研究等开放式任务。

有一个OSWorld标准是用来评测模型使用电脑的能力,在理解萤幕截图(Screenshot)上,Claude 3.5 Sonnet取得了14.9%的成绩,虽然尚远不及人类水准(70~75%),却已高于第二名Cradle BAAI的7.8%,以及OpenAI GPT-4 Vision的7.7%,倘若可以执行更多的步骤,Claude 3.5 Sonnet还能达到22%。

不过,Anthropic坦承Claude目前操作电脑的能力并不完美,人们可以轻松执行的滚动、拖曳或缩放对Claude而言都是挑战,在实验中,它还停止了正在长时间运作的萤幕录制,导致所有内容都不见。

目前包括Asana、Canva、Cognition、DoorDash、Replit与The Browser Company都已在测试Claude 3.5 Sonnet的电脑执行能力,其中,线上程式开发平台Replit利用它来建置Replit Agent的新功能,可在开发人员建置应用程式的过程中,自动检查并评估应用程式的表现。

除了操作电脑的能力之外,Claude 3.5 Sonnet在许多评测都有长足的进步,包括GPQA、MMLU Pro、HummaEval、MATH、AIME 2024、MMMU、SWE-bench Verified及TAU-bench等,除了MATH略逊Gemini 1.5 Pro之外,其它评测都胜过Gemini 1.5 Pro、Gemini 1.5 Flash、GPT-4o与GPT-4o mini。

在与撰写程式相关的HummaEval及SWE-bench Verified评测中,Claude 3.5 Sonnet分别夺得了93.7%及49%的成绩,高过前一个版本的88.1%与40.6%。

另一个TAU-bench是用来测试AI代理工具于真实世界场景中的表现,衡量能否处理复杂且多步骤的任务,并与使用者进行自然对话,Claude 3.5 Sonnet在零售领域的表现达到69.2%,在航空领域的表现为46%,高于前一版的62.6%与36%。

至于速度最快的Claude 3.5 Haiku特别擅长撰写程式码,它在HummaEval的得分为88.1%,而在评估解决实际软体问题能力的SWE-bench Verified上得分亦有40.6%。

Anthropic表示,Claude 3.5 Haiku具备低延迟,更好的指令遵循能力,以及更准确的工具使用,非常适合面向使用者的产品、专门的子代理任务,以及从大量资料生成个人体验的服务,例如购买历史纪录、定价或库存纪录等。

不管是Claude 3.5 Sonnet或Claude 3.5 Haiku都可借由API、Amazon Bedrock及Google Cloud的Vertex AI存取,只是Claude 3.5 Haiku尚未上线,而且初期仅支援文字,之后才会支援图像输入。