Anthropic更新Claude 3.5 Sonnet，新增操作電腦能力

图片撷取自Anthropic官方网页

AI模型开发业者Anthropic周二（10/22）更新了Claude 3.5 Sonnet，新版Claude 3.5 Sonnet首度开放使用者测试其电脑操作能力，也特别改善了程式码撰写及工具使用任务，并宣布将在10月底释出Claude 3.5 Haiku。

Claude Sonnet为Anthropic所开发的中阶模型，著重在取得智力与速度的平衡，Claude Haiku则是最小也最低阶的模型，主打即时回应，而最大的模型Claude Opus则是用来处理更复杂的任务，目前Anthropic仅发表Sonnet 3.5及Haiku 3.5，并未提及Opus 3.5。

为了训练Claude使用电脑，Anthropic打造了一个API以让Claude能够感知电脑介面并与之互动，开发人员即可整合该API，要求Claude将指令（例如：利用我电脑上的资料来填入表格）转成电脑命令（检查试算表，移动游标以开启浏览器，导航至最相关的页面，以及填入表格等）。

Anthropic说，现代的大量工作都是透过电脑进行的，令AI能够像人类一样与电脑互动，将解锁这一代AI助手无法处理的大量应用。这几年AI有许多重要的发展，像是执行复杂逻辑推理的能力，以及查看与理解图像的能力，而下一个重要领域则是使用电脑，让AI模型可直接按照指示使用各种软体，而不必再透过特制的软体与电脑互动。开发人员可利用此一功能来自动化重复的流程，建置与测试软体，或是执行诸如研究等开放式任务。

有一个OSWorld标准是用来评测模型使用电脑的能力，在理解萤幕截图（Screenshot）上，Claude 3.5 Sonnet取得了14.9%的成绩，虽然尚远不及人类水准（70~75%），却已高于第二名Cradle BAAI的7.8%，以及OpenAI GPT-4 Vision的7.7%，倘若可以执行更多的步骤，Claude 3.5 Sonnet还能达到22%。

不过，Anthropic坦承Claude目前操作电脑的能力并不完美，人们可以轻松执行的滚动、拖曳或缩放对Claude而言都是挑战，在实验中，它还停止了正在长时间运作的萤幕录制，导致所有内容都不见。

目前包括Asana、Canva、Cognition、DoorDash、Replit与The Browser Company都已在测试Claude 3.5 Sonnet的电脑执行能力，其中，线上程式开发平台Replit利用它来建置Replit Agent的新功能，可在开发人员建置应用程式的过程中，自动检查并评估应用程式的表现。

除了操作电脑的能力之外，Claude 3.5 Sonnet在许多评测都有长足的进步，包括GPQA、MMLU Pro、HummaEval、MATH、AIME 2024、MMMU、SWE-bench Verified及TAU-bench等，除了MATH略逊Gemini 1.5 Pro之外，其它评测都胜过Gemini 1.5 Pro、Gemini 1.5 Flash、GPT-4o与GPT-4o mini。

在与撰写程式相关的HummaEval及SWE-bench Verified评测中，Claude 3.5 Sonnet分别夺得了93.7%及49%的成绩，高过前一个版本的88.1%与40.6%。

另一个TAU-bench是用来测试AI代理工具于真实世界场景中的表现，衡量能否处理复杂且多步骤的任务，并与使用者进行自然对话，Claude 3.5 Sonnet在零售领域的表现达到69.2%，在航空领域的表现为46%，高于前一版的62.6%与36%。

至于速度最快的Claude 3.5 Haiku特别擅长撰写程式码，它在HummaEval的得分为88.1%，而在评估解决实际软体问题能力的SWE-bench Verified上得分亦有40.6%。

Anthropic表示，Claude 3.5 Haiku具备低延迟，更好的指令遵循能力，以及更准确的工具使用，非常适合面向使用者的产品、专门的子代理任务，以及从大量资料生成个人体验的服务，例如购买历史纪录、定价或库存纪录等。

不管是Claude 3.5 Sonnet或Claude 3.5 Haiku都可借由API、Amazon Bedrock及Google Cloud的Vertex AI存取，只是Claude 3.5 Haiku尚未上线，而且初期仅支援文字，之后才会支援图像输入。

Anthropic更新Claude 3.5 Sonnet，新增操作电脑能力