GitHub
美国柏克莱大学研究人员上周开源他们自建的推理(reasoning)AI模型,训练成本只要450美元。
柏克莱大学(UC of Berkeley)Sky Computing实验室下的NovaSky团队,上周发表了Sky-T1-32B-Preview推理模型,宣称在常见的理解及程式标竿测试效能,和OpenAI的o1-preview相当。
研究团队的动机在于,推理模型如OpenAI o1或Gemini 2.0 Flash Thinking Mode能内部产生很长的思维链(chain of thought),擅长解决复杂问题。但是这些模型技术细节及模型权重不对外开放,难为学术及开源社群使用。现有Still-2、Journey开源推理模型较侧重数学领域,研究团队因此希望能开发出涵盖更广领域的开源推理模型。
研究团队是以QwQ-32B-Preview模型生成训练资料。经过拒绝采样(rejection sampling),最后的训练资料集为约17,000笔资料,包括APPs和TACO资料库的5,000行程式、NuminaMATH资料集下的AIME、MATH及Olympiads子资料集,以及约1,000笔STILL-2生成的科学和解题资料,以求涵盖各领域。
新模型是以QwQ- 32B-Instruct作为基础模型微调。在8颗H100的平台上使用DeepSpeed Zero-3 offload优化技术,并以Llama-Factory花了19小时训练完成。
完成的Sky-T1-32B-Preview模型在数学和编码基准测试中,效能表现与OpenAI的o1-preview相当。而且所有测试项目结果也优于基础的Qwen-2.5-32B-Instruct。
若不计算硬体,这个模型训练成本不到450美元,研究人员说,这显示低成本训练方法也能有效复制高阶推理能力。Sky-T1-32B-Preview模型程式码、权重等资源已经开源于GitHub上。