微软释出桌机版推理AI模型Phi-4-mini-flash-reasoning 以新混合架构提升效能

图片来源: 

Hugging Face

微软本周宣布推出可在桌机或边缘装置执行的38亿参数推理模型Phi-4-mini-flash-reasoning,以新的混合架构提升效能,低延迟性与推理能力兼备。

Phi-4-mini-flash-reasoning是为运算、记忆体有限,且延迟性容忍度低的情境而设计,它可在边缘装置、行动装置或资源受限的环境中执行进阶推理。Phi-4-mini-flash-reasoning是Phi-4-mini的最新模型,同为38亿参数,支援64K token context length,并以高品质合成资料微调,以提供逻辑密集(logic-intensive)的稳定效能,适合注重即时性的逻辑化应用等教学应用场景。

有兴趣的用户可以加入Azure AI Foundry使用Phi-4-mini-flash-reasoning。

虽然Phi-4-mini-flash-reasoning是源于Phi-4-mini,但是它采用了新的decoder-hybrid-decoder架构名为SambaY。SambaY的重要创新是GMU(Gated Memory Unit),是一种在不同层之间共享表示(representations)的有效机制。技术而言,这个架构有个self-decoder,后者整合了Mamba(一种状态空间模型)和稀疏注意力(Sliding Window Attention,SWA),该架构另外还有一层全注意力层以及Cross-decoder,这个Cross-decoder可和GMU运作,达到效率与性能的平衡。

简单而言,新的SambaY架构可提升解码效率、保持线性预处理时间复杂度,意谓提升扩充性、并改善长上下文检索的执行效能(更适合长文本处理任务)。

和所有Phi-4模型一样,Phi-4-mini-flash-reasoning可部署在单一GPU的机器上,不过它更优于Phi-4-mini-reasoning之处在于,在长上下文生成及低延迟推理任务Phi-4-mini-flash-reasoning具备更低延迟性和更高吞吐量。在一项测试中,Phi-4-mini-flash-reasoning延迟性缩短2倍有余,而资料吞吐量最高可提高10倍。而在AIME24、AIME25、MATH-500和GPQA Diamond等标竿测试中,Phi-4-mini-flash-reasoning的跑分成果都比Phi-4-mini-reasoning好,也优于其他2倍参数规模的模型,如DeepSeek-R1-Distill -Qwen 1.5B、Bespoke -Stratos-7B、OpenThinker-7B等。

微软说Phi-4-mini-flash-reasoning高吞吐量、低延迟性及著重数学推理,很适合特定教育应用,例如需要即时回馈回圈的适应性学习平台、本地推理助理如手机学习助理,或是可依据学习者成绩动态调整内容难度的互动式教学系统。