• 101 200 126 202

  • 首页
登录
  • ithome台湾
  • Uncategorized
  • 虎嗅
  • 财富中文网
  • 搜索

中国DeepSeek开源其R1推论模型,数学、程式开发表现紧追OpenAI o1

ithome台湾
2025-01-22

中国DeepSeek公司宣布以MIT授权

在开源策略上,DeepSeek释出了完整模型,还推出多个经过蒸馏处理的模型版本,参数范围从15亿至700亿不等,供不同资源需求的开发者或研究者使用。根据测试结果,蒸馏模型在AIME 2024、MATH-500与CodeForces等多项基准测试,超越像是GPT-4o与Claude-3.5-Sonnet等模型。

虽然DeepSeek-R1表现出强大的能力,但仍存在一些限制,例如模型对提示词的敏感性较高,尤其是当使用小样本提示(Few-Shot Prompting)时,模型的性能会明显下降,因此,建议用户采用零样本提示(Zero-Shot Prompting)的方式,也就是直接描述问题并明确说明输出格式,而不提供任何范例。此外,目前该模型主要针对中英双语最佳化,在处理其他语言的查询时偶尔会出现语言混用现象。

DeepSeek-R1也以

deepseek r 模型

我的网站