美国华盛顿及史丹佛大学研究团队发表<s1: Simple test-time scaling>研究,以仅1,000个问题资料集训练出s1-32B模型,并在数学测验AIME24及MATH等标竿测试成果超越o1-preview。(
美国华盛顿大学及史丹佛大学研究团队本周公布最新研发成果,以极低成本使用新开发方法,可以小样本资料集训练出推论效能超过o1-preview的AI模型。 成员来自华盛顿大学及史丹佛大学的研究团队发表论文,他们以仅1,000个问题资料集训练出s1-32B模型,并在数学测验AIME24及MATH等标竿测试成果超越o1-preview。 目前业界大型语言模型主要是以大规模运算训练提升模型能力,OpenAI o1模型已开始使用这种新兴方法。但上述研究团队探索以最简单方法进行测试时扩展(test-time scaling)建模,且实现强大的推理能力。研究人员尝试小样本训练;他们集结1,000道问题,以及从Gemini Thinking Experimental生成的答案及推理过程组成s1K资料集。在环境上,团队在16颗H100 GPU平台上执行Qwen2.5-32B-Instruct进行监督式微调。 研究人员告知Techcrunch,他们仅花了20美元租用设备进行此次开发。 在测试期间他们使用了名为「Budget Forcing」的方法控制推论时间。最后,研究人员将训练出的s1-32B与市面主要非开放及开放模型进行标竿测试比较。在MATH及AIME24中,s1-32B超越o1-preview,而在扩展后,还可进一步提升AIME24测试成果由50%提升为57%。
研究团队也比较了s1-32B和DeepSeek r1和o1,测试结果并不如后二者。但研究团队解释,这是因为DeepSeek r1和o1都使用了大量数据进行强化学习,而s1-32B则仅使用1,000个精选资料进行微调,因此仍是最具样本效率的模型。 本模型已开源于GitHub上。 大学研究人员不断在以更低成本训练高效能AI模型。今年初史丹佛大学另一团队也用了约450美元来训练效能近似o1-previes的模型。