Alexander Wei
OpenAI的研究科学家Alexander Wei上周六(7/19)宣布,OpenAI实验性的推理大型语言模型在世界最负盛名的数学竞赛—国际数学奥林匹亚(International Math Olympiad,IMO)取得了金牌等级的成绩。Wei在X上展示了一张草苺挂上金牌的照片,外界猜测或许代表其专案名称为Strawberry。
IMO是一项针对高中生的全球性数学竞赛,在两天的竞赛中各提供4.5小时的时间来解决涵盖不同领域的3道数学题目,每道题最高为7分,金牌门槛每年不一,通常落在31~42分之间,今年数奥甫于上周结束,金牌门槛为35分,有67名同学获得金牌。OpenAI采用与人类参赛者同样的规则,不使用工具或网路,让模型阅读官方问题的陈述,再以自然语言撰写证明,它解决了5道题目,得到35分,刚好为今年的金牌门槛。
Google DeepMind的AlphaProof模型也曾在2024年挑战数奥,它解决了4道题目,得到28分,距去年金牌门槛只有1分之遥。
Wei说,相较于过去的基准测试,IMO需要持续的思考能力,此一结果意味著模型的推理时间范围,已从只需要0.1分钟的GSM8K、约1分钟的MATH、10分钟的AIME,扩展至可能需要100分钟的IMO,从简单的快速运算到处理需要长时间思考的复杂问题,同时媲美人类顶尖数学家。
此外,除了结果本身,Wei更对他们所使用的方法感到兴奋,因为他们并非透过狭隘、针对特定任务的方法,而是在通用强化学习及推理时扩充运算能力上开创了新局面。
不过,该达到数奥金牌等级的大型语言模型仍只是个实验性的研究模型,并非商业产品,OpenAI短期内、至少在数个月内都不会释出类似的功能。但外界可以期待的是OpenAI即将发表GPT-5。
该模型很可能是Wei在OpenAI的最后一个作品,因为专注于大型语言模型及推理研究的Wei已于今年7月中跳槽至Meta AI,成为Meta超级智慧实验室(Meta Superintelligence Labs,MSL)的一员。