DeepSeek-V3:671B参数,训练成本557万美元,凭什么?

DeepSeek-V3 技术解读

671B 参数,557 万美元训练成本

MoE 架构 | FP8 混合精度 | 14.8T token 预训练 | 128K 上下文
跑分压着 GPT-4o 打,训练成本不到 LLaMA 3.1 的五分之一

671B
总参数
37B
激活参数
$557万
训练成本
128K
上下文窗口

架构创新

三项关键技术,解决 MoE 老问题 + 推理效率 + 训练稳定性

无辅助损失的负载均衡

MoE 模型的老大难问题:各专家负载不均衡。传统做法是加辅助损失函数强制平衡,但会拖累模型性能。DeepSeek-V3 直接去掉辅助损失,用新方案实现负载均衡,性能不受影响。

多 token 预测(MTP)

一般模型一次只预测下一个 token,DeepSeek-V3 一次预测多个。训练时学得更深,推理时可以做投机解码加速。论文验证了 MTP 确实能提升效果。

MLA + DeepSeekMoE(继承 V2)

多头潜在注意力(MLA)压缩 KV 缓存,降低显存占用;DeepSeekMoE 用细粒度专家+共享专家组合,模型容量大但推理便宜。V2 验证过的东西不折腾,直接继承。

训练效率

第一个在超大规模模型上跑通 FP8 训练的团队

FP8 混合精度训练

以前大家觉得 FP8 精度不够不敢用,DeepSeek-V3 第一个在超大规模上跑通了 FP8,效果没问题。这是实打实的技术突破,以后别人也能用。

计算通信重叠

MoE 训练瓶颈在跨节点通信。团队从算法、框架、硬件三层协同设计,几乎做到计算和通信完全重叠——通信不再拖后腿。

266.4万
H800 GPU小时(预训练)
10万
GPU小时(后训练)
$557万
总成本

对比:Meta 训练 LLaMA 3.1 405B 用了约 3000 万 GPU 小时,DeepSeek-V3 参数更多,成本不到五分之一

从 R1 蒸馏推理能力

DeepSeek-R1 是专注推理的长链思维模型,但输出冗长、风格不好控制。V3 把 R1 的验证和反思模式蒸馏过来,保留推理能力,同时控制输出风格和长度。相当于把爱写长篇大论的学霸,调教成答题精炼的考试选手。

跑分成绩

绿色标注 = 该项最优 / 数据均为百分制得分

综合能力 vs 开源模型

评测 Qwen2.5 72B LLaMA3.1 405B DeepSeek-V3
MMLU 85.0 84.4 87.1
MMLU-Pro 58.3 52.8 64.4
BBH 79.8 82.9 87.5
DROP 80.6 86.0 89.0

数学和代码能力 vs 开源模型

评测 Qwen2.5 72B LLaMA3.1 405B DeepSeek-V3
MATH 54.4 49.0 61.6
GSM8K 88.3 83.5 89.3
HumanEval 53.0 54.9 65.2
LiveCodeBench 12.9 15.5 19.4

vs 闭源模型

评测 Claude-3.5-Sonnet GPT-4o DeepSeek-V3
MMLU 88.3 87.2 88.5
MATH-500 78.3 74.6 90.2
AIME 2024 16.0 9.3 39.2
LiveCodeBench 36.3 33.4 40.5
Codeforces 20.3 23.6 51.6

开放式对话评测

模型 Arena-Hard AlpacaEval 2.0
GPT-4o 80.4 51.1
Claude-3.5-Sonnet 85.2 52.0
DeepSeek-V3 85.5 70.0

四个关键发现

1. AIME 2024 竞赛数学碾压

DeepSeek-V3 得分 39.2,Claude-3.5-Sonnet 只有 16.0,GPT-4o 只有 9.3。差距不是一点半点,是数量级的。Codeforces 编程竞赛 51.6 百分位,其他两个连 25 都到不了。

2. AlpacaEval 2.0 胜率 70.0

比 GPT-4o(51.1)和 Claude-3.5-Sonnet(52.0)高出将近 20 个点。在开放式对话评测中,DeepSeek-V3 的回答质量明显更受偏好。

3. 训练成本只有 LLaMA 3.1 的 1/5

Meta 训练 LLaMA 3.1 405B 用了约 3000 万 GPU 小时,DeepSeek-V3 参数更多(671B vs 405B),只用了 278.8 万 GPU 小时。FP8 + 计算通信重叠,效率提升巨大。

4. 事实性问答还有短板

SimpleQA 等事实性问答上还落后于 GPT-4o,说明知识准确性还有提升空间。但综合来看,目前最强开源大模型没有之一。

推理框架支持

官方只提供 FP8 权重,需要 BF16 可用脚本转换 / 仅支持 Linux + Python 3.10

SGLang
BF16/FP8 推理,MLA 优化,FP8 KV Cache,NVIDIA 和 AMD GPU 都支持
vLLM
FP8/BF16,张量并行+流水线并行,多机部署
LMDeploy
FP8/BF16 推理,本地和云端都能跑
TensorRT-LLM
BF16 推理,INT4/8 量化,FP8 还在开发中
LightLLM
单机/多机张量并行
华为昇腾 NPU
通过 MindIE 框架,INT8 和 BF16
许可证

  • 代码:MIT 许可证
  • 模型:自有许可证,支持商业使用
  • 模型总大小 685B(671B 主模型权重 + 14B 多 token 预测模块权重)
一句话总结:DeepSeek-V3 最让人意外的不是跑分,而是训练成本。557 万美元训练一个 671B 的模型,跑分压着 GPT-4o 打,这在一年前根本不敢想。无辅助损失负载均衡解决了 MoE 老大难问题,FP8 训练跑通超大模型,从 R1 蒸馏推理能力思路巧妙,训练全程零事故——工程能力确实硬。

论文地址:arxiv.org/abs/2412.19437 | 模型权重:HuggingFace deepseek-ai | 数据来源:DeepSeek-V3 技术论文

发表评论