Google释出大型语言模型领先Claude 3.7与GPT-4.1等先进模型。
根据由LMSYS营运的WebDev Arena即时对战平台资料,Gemini 2.5 Pro I/O版(gemini-2.5-pro-preview-05-06)获得1419.95的高分,超越Anthropic Claude 3.7的1357.10,与OpenAI GPT-4.1的1261.35,在众多语言模型中名列前茅,是目前Web前端开发领域表现最佳的模型。
WebDev Arena平台评估语言模型在前端开发任务中的实用表现,评分依据来自使用者对双模型输出的匿名偏好投票,投票结果经由Elo演算法转换为分数,建立模型间的相对排名。评比重点包含介面逻辑正确性、视觉一致性与开发流程中的可用性。
Gemini 2.5 Pro的更新重点,在于提升模型处理前端任务的上下文理解与生成品质,尤其在处理设计样式细节,还有程式结构变动上表现更为出色。Google指出,该模型不仅可协助完成CSS属性调整与元件生成,也能针对UI设计原型的风格一致性提供具体建议,有助于既有应用的功能扩充与样式统一。I/O版也针对函式呼叫的准确率与触发成功率进行最佳化,使模型在执行多步骤任务时表现更稳定。