AWS推出SWE-PolyBench測試基準，更精準評估AI程式代理的多語言開發能力

三款人工智慧程式代理模型于SWE-PolyBench测试基准中的表现比较。左图显示各模型在Python、Java、JavaScript与TypeScript四种语言的平均通过率，右图则比较在不同语法结构任务下的处理能力，包括仅修改单一类别、函式、混合节点或无节点等类型。

AWS宣布现已于Hugging Face开源，搭配完整程式码储存库，供研究者与开发者快速评估与比较不同人工智慧模型表现。

AWS推出SWE-PolyBench测试基准，更精准评估AI程式代理的多语言开发能力