中國DeepSeek開源其R1推論模型，數學、程式開發表現緊追OpenAI o1

中国DeepSeek公司宣布以MIT授权

在开源策略上，DeepSeek释出了完整模型，还推出多个经过蒸馏处理的模型版本，参数范围从15亿至700亿不等，供不同资源需求的开发者或研究者使用。根据测试结果，蒸馏模型在AIME 2024、MATH-500与CodeForces等多项基准测试，超越像是GPT-4o与Claude-3.5-Sonnet等模型。

虽然DeepSeek-R1表现出强大的能力，但仍存在一些限制，例如模型对提示词的敏感性较高，尤其是当使用小样本提示（Few-Shot Prompting）时，模型的性能会明显下降，因此，建议用户采用零样本提示（Zero-Shot Prompting）的方式，也就是直接描述问题并明确说明输出格式，而不提供任何范例。此外，目前该模型主要针对中英双语最佳化，在处理其他语言的查询时偶尔会出现语言混用现象。

DeepSeek-R1也以

deepseek r 模型

中国DeepSeek开源其R1推论模型，数学、程式开发表现紧追OpenAI o1