OpenAI o1模型在广泛的基准测试中,表现都比GPT-4o还要更好
OpenAI o1是一个针对复杂推理问题设计的新一代大型语言模型,相较于之前的模型,o1透过强化学习来增强其推理能力,能够对问题进行深度思考。官方解释,o1关联思考(Chain of Thought)的能力模拟人类解题时逻辑推理过程,借由分步骤分析问题,再做出回应。而这种能力大幅提升o1处理复杂任务的准确性和可靠性。
在数学以及程式设计领域,o1的表现尤为亮眼,展现了解决高难度问题所需要的强大推理能力。以2024年的AIME数学考试为例,o1单次尝试就可解决74%的题目,而透过共识决方法,也就是经多次解法的综合判断,准确度可以提高至93%。在程式设计领域,o1在Codeforces竞技程式测试表现也相当优异,针对国际资讯奥林匹亚(International Olympiad in Informatics,IOI)调校的模型变体o1-ioi,其Elo评分达到1807,超过93%的人类竞争者。
图片来源/OpenAI
o1有能力逐步分析问题,拆解复杂步骤并自动修正错误,而透过强化学习,则又能从每次的尝试中学习改进,持续最佳化其解题技巧,这让o1模型在解决需要深度推理的问题时,具备更高的准确性、效率和稳定性。
目前OpenAI已经释出o1早期版本OpenAI o1-preview,使用者已经可以在ChatGPT中进行测试,并开放给部分受信任的API使用者。