基准测试结果进一步凸显DeepSeek V3的进展。在英文基准测试的表现,MMLU(Acc.)测试中,DeepSeek V3获得87.1%,超越Meta Llama-3.1的84.4%和阿里巴巴Qwen2.5的85.0%。HumanEval(Pass@1)测试中的程式码生成能力表现达65.2%,远高于Qwen2.5的53.0%和Llama-3.1的54.9%。而数学能力测试方面,GSM8K(EM)测试中,DeepSeek V3获得89.3%,高于Qwen2.5的88.3%和Llama-3.1的83.5%。
而中文基准测试DeepSeek V3在C-Eval(Acc.)测试中,取得90.1%,超越Qwen2.5的89.2%和Llama-3.1的72.5%。在多语言测试MMMLU-non-English(Acc.)中,DeepSeek V3以79.4%领先Qwen2.5和Llama-3.1。
根据DeepSeek V3的技术文件,以每GPU小时2美元计算,训练DeepSeek V3模型花费278.8万小时,花费总成本约是557万美元。该模型使用Nvidia为应对美国出口限制,专为中国市场设计的H800 GPU训练而成。H800为H100的修改版,仅保留H100的架构,虽在跨节点通讯频宽与资料处理能力低于H100,但仍能满足大模型的训练需求。
不过,随著中国大语言模型技术的进步,其可能带来的影响逐渐成为讨论焦点。DeepSeek V3作为中国厂商主导开发的语言模型,其训练过程与内容生成机制可能受到审查系统的影响。尤其在回应涉及敏感议题或特定政治立场时,模型可能呈现经过筛选或规范化的回复,这可能对其应用范围产生一定限制。
现代社会对大型语言模型的依赖增加,语言模型的角色不仅限于技术工具,还逐渐成为文化与价值观的传播媒介。当模型生成的内容受到审查,其在全球华语语境中的应用,可能引发对言论多样性与自由表达的挑战。