GitHub
总部位于中国上海的AI新创MiniMax周一(6/16)开源了MiniMax-M1,宣称是全球首个开源的大规模混合注意力推理模型,它采用Apache‑2.0开源授权,支援100万个Token的脉络长度,在基准测试中发现,该模型于复杂并以生产力为导向的场景中表现特别出色,像是软体工程、长脉络与工具上的使用等。
MiniMax是由来自商汤科技的几名工程师于2021年共同创办,去年3月取得阿里巴巴的6亿美元资金,估值为25亿美元,并在今年1月开源了MiniMax-01系列模型,包括语言模型MiniMax-Text-01与视觉多模态模型MiniMax-VL-01。
与MiniMax-01一致的是,MiniMax-M1亦拥有4,560亿个参数,每次推理使用46亿个参数,支援100万个Token的脉络长度。不同的是,MiniMax-01定位为通用大型语言模型,采用混合专家及Transformer架构;MiniMax-M1则是个推理模型,采用混合专家及包括闪电注意力在内的混合注意力架构。
此外,相较于开源的DeepSeek-R1、Qwen3-235B,以及私有的OpenAI o3、Gemini-2.5 Pro、Claude 4 Opus与Seed-Thinking-v1.5等8款目前市场上最先进的模型,MiniMax-M1在AIME 2024数奥基准测试上排名第四,在LiveCodeBench动态程式码生成的基准测试上名列第六,在SWE-bench软体工程测试中排名第五,在使用工具解决复杂任务的Tau-Bench测试中排名第二,在长脉络与多步推理的MRCR测试中亦仅次于Gemini-2.5 Pro。
MiniMax表示,M1的一个明显优势是它支援100万个Token的脉络长度,这个长度与Google Gemini 2.5 Pro相当,而且是DeepSeek R1(仅支援12.8万个Token脉络长度)的8倍。此外,M1的最大输出值为8万个Token,仅次于OpenAI o3的10万Token,优于Gemini 2.5 Pro与DeepSeek-R1的6.4万个。
根据该公司的说明,这主要是归功于所采用的混合注意力机制中内建闪电注意力(Lightning Attention),使得模型在计算长脉络及深度推理上特别有效率,例如当MiniMax-M1在处理8万个Token的推理任务时,只需要30%左右的DeepSeek R1计算量。
此外,MiniMax使用了新的强化学习(RL)演算法CISPO,有别于传统RL是依据新模型生成的Token进行策略更新,CISPO则是对重要性采样权重进行剪裁,可提升训练稳定性及加速收敛。实验显示,其训练速度是其它RL方法的两倍快。因此,MiniMax-M1仅使用512张H800,在3周内便完成整个强化学习阶段,租金为534,700美元,大约只有原本估计的1/10。
MiniMax指出,因为对训练及推理计算能力的利用相对高效,因此将在MiniMax App与Web提供无限免费使用,且提供价格非常经济实惠的API,对于200K以下的输入长度,每百万个Token的输入/输出费用为0.4/2.2美元,200K~1M的输入长度,每百万个Token的输入/输出费用为1.3/2.2美元,比DeepSeek-R1还便宜。