微软公布Phi-4-Reasoning模型系列

图片来源: 

Hugging Face

微软昨(1)日公布最新一代小语言模型(SLM)推理版本Phi-4-Reasoning系列,包括Phi-4-reasoning、Phi-4-reasoning-plus和最小的Phi-4-mini-reasoning,强调效能媲美参数量大的模型。微软预告,新模型之后将会用于支援Copilot+ PC的AI功能。

这是微软自去年4月公布轻量模型Phi-3后最新进展。Phi-3今年1月推进到Phi-4,并开源140亿参数版本。随后一个月又发表了Phi-4多模态模型

最新的Phi-4-reasoning为140亿参数的开源权重推理模型,是以Phi-4为基础,利用OpenAI o3-mini示范作为训练资料,以监督式微调训练而成。它能有效运用推论时的额外运算资源来生成详尽的推论串,context length为32k token。而Phi-4-reasoning-plus则是以Phi-4-reasoning为基础强化学习训练,比起Phi-4-reasoning,能用更多推论时运算资源,并使用1.5倍的字词(token)量来提供更准确的回应。

微软说,Phi-4-reasoning运用精心安排的训练资料和高品质的合成资料集,可展现媲美大模型的效能。根据微软提供的AIME 25、HMMT Feb 25、OmniMath及GPQA等标竿测试数据,Phi-4-reasoning比起Phi-4明显进步,而在推理能力如数学、程式、解决演算问题与规划中,都超越DeepSeek-R1 Distill 70B,而且逼近DeepSeek-R1 671B MoE。同时间,二个模型在AIME 25及GPQA测试略逊o3-mini,但OmniMath测试表现却双双超越。

图片来源/微软

Phi-4-reasoning及Phi-4-reasoning-plus在所有项目都超越OpenAI-o1-mini。Phi-4-reasoning家族和DeepSeek-R1 671B MoE相比,则是胜负各半。

目前二款模型已在Azure AI FoundryHugging Face开放。

微软还公布了Phi-4-mini-reasoning,是一轻巧的transformer-based语言模型,利用DeepSeek-R1模型的合成资料,包括从中学到博士等级数学题目训练而成,可以说专为数学推理优化。Phi-4-mini-reasoning参数量仅3.84B,支援128k context length,适合教育、教学应用,也能轻易在笔电等边缘装置或是行动装置上执行。虽然规模小巧,但微软搬出数据显示,Phi-4-mini-reasoning在常见数学标竿测试超越参数量二倍大的模型如OpenThinker-70B、Bespoke-Stratos-7B、DeepSeek-R1-Distill-Qwen-7B与DeepSeek-R1-Distill-Llama-8B,甚至在Math-500测试中超越OpenAI o1-mini。

Phi-4-mini-reasoning也在Azure AI FoundryHugging Face上公开。

微软表示,Phi模型已经用于Copilot+ PC上,像是经过为NPU优化的Phi Silica变种已用在支援Click to Do等AI功能。微软预告,Phi-4-reasoning和mini版都会针对Phi Silica的低位元优化(low-bit optimizations)进行调整,目的是让它们能够直接在新一代PC的NPU上执行。这意谓它们不再完全依赖云端资源,而是能本地运作,提高AI回应的速度与隐私保护。