671B 参数,557 万美元训练成本
MoE 架构 | FP8 混合精度 | 14.8T token 预训练 | 128K 上下文
跑分压着 GPT-4o 打,训练成本不到 LLaMA 3.1 的五分之一
架构创新
三项关键技术,解决 MoE 老问题 + 推理效率 + 训练稳定性
无辅助损失的负载均衡
MoE 模型的老大难问题:各专家负载不均衡。传统做法是加辅助损失函数强制平衡,但会拖累模型性能。DeepSeek-V3 直接去掉辅助损失,用新方案实现负载均衡,性能不受影响。
多 token 预测(MTP)
一般模型一次只预测下一个 token,DeepSeek-V3 一次预测多个。训练时学得更深,推理时可以做投机解码加速。论文验证了 MTP 确实能提升效果。
MLA + DeepSeekMoE(继承 V2)
多头潜在注意力(MLA)压缩 KV 缓存,降低显存占用;DeepSeekMoE 用细粒度专家+共享专家组合,模型容量大但推理便宜。V2 验证过的东西不折腾,直接继承。
训练效率
第一个在超大规模模型上跑通 FP8 训练的团队
FP8 混合精度训练
以前大家觉得 FP8 精度不够不敢用,DeepSeek-V3 第一个在超大规模上跑通了 FP8,效果没问题。这是实打实的技术突破,以后别人也能用。
计算通信重叠
MoE 训练瓶颈在跨节点通信。团队从算法、框架、硬件三层协同设计,几乎做到计算和通信完全重叠——通信不再拖后腿。
对比:Meta 训练 LLaMA 3.1 405B 用了约 3000 万 GPU 小时,DeepSeek-V3 参数更多,成本不到五分之一
从 R1 蒸馏推理能力
DeepSeek-R1 是专注推理的长链思维模型,但输出冗长、风格不好控制。V3 把 R1 的验证和反思模式蒸馏过来,保留推理能力,同时控制输出风格和长度。相当于把爱写长篇大论的学霸,调教成答题精炼的考试选手。
跑分成绩
绿色标注 = 该项最优 / 数据均为百分制得分
综合能力 vs 开源模型
| 评测 | Qwen2.5 72B | LLaMA3.1 405B | DeepSeek-V3 |
|---|---|---|---|
| MMLU | 85.0 | 84.4 | 87.1 |
| MMLU-Pro | 58.3 | 52.8 | 64.4 |
| BBH | 79.8 | 82.9 | 87.5 |
| DROP | 80.6 | 86.0 | 89.0 |
数学和代码能力 vs 开源模型
| 评测 | Qwen2.5 72B | LLaMA3.1 405B | DeepSeek-V3 |
|---|---|---|---|
| MATH | 54.4 | 49.0 | 61.6 |
| GSM8K | 88.3 | 83.5 | 89.3 |
| HumanEval | 53.0 | 54.9 | 65.2 |
| LiveCodeBench | 12.9 | 15.5 | 19.4 |
vs 闭源模型
| 评测 | Claude-3.5-Sonnet | GPT-4o | DeepSeek-V3 |
|---|---|---|---|
| MMLU | 88.3 | 87.2 | 88.5 |
| MATH-500 | 78.3 | 74.6 | 90.2 |
| AIME 2024 | 16.0 | 9.3 | 39.2 |
| LiveCodeBench | 36.3 | 33.4 | 40.5 |
| Codeforces | 20.3 | 23.6 | 51.6 |
开放式对话评测
| 模型 | Arena-Hard | AlpacaEval 2.0 |
|---|---|---|
| GPT-4o | 80.4 | 51.1 |
| Claude-3.5-Sonnet | 85.2 | 52.0 |
| DeepSeek-V3 | 85.5 | 70.0 |
四个关键发现
1. AIME 2024 竞赛数学碾压
DeepSeek-V3 得分 39.2,Claude-3.5-Sonnet 只有 16.0,GPT-4o 只有 9.3。差距不是一点半点,是数量级的。Codeforces 编程竞赛 51.6 百分位,其他两个连 25 都到不了。
2. AlpacaEval 2.0 胜率 70.0
比 GPT-4o(51.1)和 Claude-3.5-Sonnet(52.0)高出将近 20 个点。在开放式对话评测中,DeepSeek-V3 的回答质量明显更受偏好。
3. 训练成本只有 LLaMA 3.1 的 1/5
Meta 训练 LLaMA 3.1 405B 用了约 3000 万 GPU 小时,DeepSeek-V3 参数更多(671B vs 405B),只用了 278.8 万 GPU 小时。FP8 + 计算通信重叠,效率提升巨大。
4. 事实性问答还有短板
SimpleQA 等事实性问答上还落后于 GPT-4o,说明知识准确性还有提升空间。但综合来看,目前最强开源大模型没有之一。
推理框架支持
官方只提供 FP8 权重,需要 BF16 可用脚本转换 / 仅支持 Linux + Python 3.10
- 代码:MIT 许可证
- 模型:自有许可证,支持商业使用
- 模型总大小 685B(671B 主模型权重 + 14B 多 token 预测模块权重)
论文地址:arxiv.org/abs/2412.19437 | 模型权重:HuggingFace deepseek-ai | 数据来源:DeepSeek-V3 技术论文