ARC-AGI-2基准测试中的组合推理题目之一
由ARC Prize基金会主导,通用人工智慧基准测试ARC-AGI释出第二版本。ARC团队根据测试结果,归纳出人工智慧目前的三项明显困难,首先,符号诠释方面,人工智慧系统能辨识图形对称与图像变化,但无法理解符号背后的语意或逻辑功能;其次,在组合推理(Compositional Reasoning)上,当题目需要同时套用多组规则或这些规则彼此影响时,现行模型容易出错;第三,情境式规则应用也是困难点,模型倾向于对表面模式过度拟合,而缺乏根据上下文灵活调整规则运用的能力。
目前先进模型在ARC-AGI-1与ARC-AGI-2之间的表现差异,清楚呈现出模型在处理更高层次推理任务时的不足。以OpenAI的o3-low系统为例,在ARC-AGI-1中可达75.7%的通过率,但在ARC-AGI-2中的得分仅剩约4%,而GPT-4.5等纯语言模型在新版本更是完全无法作答成功。
ARC-AGI-2也正式纳入效率评估指标,将解题成本列为与通过率同等重要的衡量面向。根据官方资料,人类解题成本约为每题17美元,而OpenAI o3系列系统需花费约200美元以上资源才能完成极少量题目,突显出解得出来与解得有效率之间的落差,也是ARC-AGI-2试图呈现的核心问题。ARC团队强调,真正的智慧不应仅止于问题能否解决,而是能否以近似人类的资源使用效率快速做出正确判断。