苹果研究人员日前发布了一个有关推理模型的AI研究报告《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity》,主要探索问题的复杂度是否会影响推理模型的表现,发现当问题很简单时,AI看起来很聪明,但一旦问题变得复杂,便会曝露AI的局限性。
此一研究方向源自于近来AI领域出现了一个名为大型推理模型(Large Reasoning Models,LRMs)的新方向,像是OpenAI的o1与o3,DeepSeek-R1、Claude 3.7 Sonnet Thinking,以及Gemini Thinking等,标榜具备「思考」特性,强调长链思考(Chain-of-Thought,CoT)与自我反省,且在各种推理基准测试中表现良好。
研究人员以《河内塔》(Tower of Hanoi)及最短路径等经典逻辑游戏来测试LLM与LRM,结果发现它们都很容易就完成3个圆盘的任务,但就算只是移动7个圆盘,Claude模型的准确率都不到80%,而且其它模型也没有好到哪里去。
结论是在低复杂度下,非思考模型相对准确;随著复杂度的增加,推理模型的表现更好,但需要更多的Token;而在高难度下,不管是LLM或LRM都会直接崩溃。
更令人意外的是,就算提供它们正确的演算法,模型仍无法显著地改善表现,亦发现不管是什么种类的问题,模型都无法将推理能力延伸到训练资料以外。
科技领域投资人Josh Wolfe总结了该报告,指出LLM过度思考简单问题,遇到复杂问题时却在还有很多运算资源时便早早放弃;就算掌握了正确的演算法还是会搞砸,显示它们缺乏的是基本逻辑;这些模型不具备推理能力,而只是昂贵的模式比对器。
该论文共同作者Iman Mirzadeh向美国认知科学家Gary Marcus透露,其论点是LRM的处理过程既不合逻辑,也不聪明。
Marcus表示,他喜欢AI,但人类如果在《河内塔》这种游戏上失败,往往是因为记忆力不足,而拥有数GB记忆体的LLMs不应有同样的借口;该报告基本上展现出,不管人们如何定义通用人工智慧,LLMs都还无法取代优秀且规范明确的传统演算法。