OpenAI的實驗性模型已達數奧金牌程度

图片来源:

Alexander Wei

OpenAI的研究科学家Alexander Wei上周六（7/19）宣布，OpenAI实验性的推理大型语言模型在世界最负盛名的数学竞赛—国际数学奥林匹亚（International Math Olympiad，IMO）取得了金牌等级的成绩。Wei在X上展示了一张草苺挂上金牌的照片，外界猜测或许代表其专案名称为Strawberry。

IMO是一项针对高中生的全球性数学竞赛，在两天的竞赛中各提供4.5小时的时间来解决涵盖不同领域的3道数学题目，每道题最高为7分，金牌门槛每年不一，通常落在31~42分之间，今年数奥甫于上周结束，金牌门槛为35分，有67名同学获得金牌。OpenAI采用与人类参赛者同样的规则，不使用工具或网路，让模型阅读官方问题的陈述，再以自然语言撰写证明，它解决了5道题目，得到35分，刚好为今年的金牌门槛。

Google DeepMind的AlphaProof模型也曾在2024年挑战数奥，它解决了4道题目，得到28分，距去年金牌门槛只有1分之遥。

Wei说，相较于过去的基准测试，IMO需要持续的思考能力，此一结果意味著模型的推理时间范围，已从只需要0.1分钟的GSM8K、约1分钟的MATH、10分钟的AIME，扩展至可能需要100分钟的IMO，从简单的快速运算到处理需要长时间思考的复杂问题，同时媲美人类顶尖数学家。

此外，除了结果本身，Wei更对他们所使用的方法感到兴奋，因为他们并非透过狭隘、针对特定任务的方法，而是在通用强化学习及推理时扩充运算能力上开创了新局面。

不过，该达到数奥金牌等级的大型语言模型仍只是个实验性的研究模型，并非商业产品，OpenAI短期内、至少在数个月内都不会释出类似的功能。但外界可以期待的是OpenAI即将发表GPT-5。

该模型很可能是Wei在OpenAI的最后一个作品，因为专注于大型语言模型及推理研究的Wei已于今年7月中跳槽至Meta AI，成为Meta超级智慧实验室（Meta Superintelligence Labs，MSL）的一员。

OpenAI的实验性模型已达数奥金牌程度