DeepSeek-V3：671B参数，训练成本557万美元，凭什么？

DeepSeek-V3 技术解读

671B 参数，557 万美元训练成本

MoE 架构 | FP8 混合精度 | 14.8T token 预训练 | 128K 上下文
跑分压着 GPT-4o 打，训练成本不到 LLaMA 3.1 的五分之一

671B

总参数

37B

激活参数

$557万

训练成本

128K

上下文窗口

架构创新

三项关键技术，解决 MoE 老问题 + 推理效率 + 训练稳定性

无辅助损失的负载均衡

MoE 模型的老大难问题：各专家负载不均衡。传统做法是加辅助损失函数强制平衡，但会拖累模型性能。DeepSeek-V3 直接去掉辅助损失，用新方案实现负载均衡，性能不受影响。

多 token 预测（MTP）

一般模型一次只预测下一个 token，DeepSeek-V3 一次预测多个。训练时学得更深，推理时可以做投机解码加速。论文验证了 MTP 确实能提升效果。

MLA + DeepSeekMoE（继承 V2）

多头潜在注意力（MLA）压缩 KV 缓存，降低显存占用；DeepSeekMoE 用细粒度专家+共享专家组合，模型容量大但推理便宜。V2 验证过的东西不折腾，直接继承。

训练效率

第一个在超大规模模型上跑通 FP8 训练的团队

FP8 混合精度训练

以前大家觉得 FP8 精度不够不敢用，DeepSeek-V3 第一个在超大规模上跑通了 FP8，效果没问题。这是实打实的技术突破，以后别人也能用。

计算通信重叠

MoE 训练瓶颈在跨节点通信。团队从算法、框架、硬件三层协同设计，几乎做到计算和通信完全重叠——通信不再拖后腿。

266.4万

H800 GPU小时（预训练）

10万

GPU小时（后训练）

$557万

总成本

对比：Meta 训练 LLaMA 3.1 405B 用了约 3000 万 GPU 小时，DeepSeek-V3 参数更多，成本不到五分之一

从 R1 蒸馏推理能力

DeepSeek-R1 是专注推理的长链思维模型，但输出冗长、风格不好控制。V3 把 R1 的验证和反思模式蒸馏过来，保留推理能力，同时控制输出风格和长度。相当于把爱写长篇大论的学霸，调教成答题精炼的考试选手。

跑分成绩

绿色标注 = 该项最优 / 数据均为百分制得分

综合能力 vs 开源模型

评测	Qwen2.5 72B	LLaMA3.1 405B	DeepSeek-V3
MMLU	85.0	84.4	87.1
MMLU-Pro	58.3	52.8	64.4
BBH	79.8	82.9	87.5
DROP	80.6	86.0	89.0

数学和代码能力 vs 开源模型

评测	Qwen2.5 72B	LLaMA3.1 405B	DeepSeek-V3
MATH	54.4	49.0	61.6
GSM8K	88.3	83.5	89.3
HumanEval	53.0	54.9	65.2
LiveCodeBench	12.9	15.5	19.4

vs 闭源模型

评测	Claude-3.5-Sonnet	GPT-4o	DeepSeek-V3
MMLU	88.3	87.2	88.5
MATH-500	78.3	74.6	90.2
AIME 2024	16.0	9.3	39.2
LiveCodeBench	36.3	33.4	40.5
Codeforces	20.3	23.6	51.6

开放式对话评测

模型	Arena-Hard	AlpacaEval 2.0
GPT-4o	80.4	51.1
Claude-3.5-Sonnet	85.2	52.0
DeepSeek-V3	85.5	70.0

四个关键发现

1. AIME 2024 竞赛数学碾压

DeepSeek-V3 得分 39.2，Claude-3.5-Sonnet 只有 16.0，GPT-4o 只有 9.3。差距不是一点半点，是数量级的。Codeforces 编程竞赛 51.6 百分位，其他两个连 25 都到不了。

2. AlpacaEval 2.0 胜率 70.0

比 GPT-4o（51.1）和 Claude-3.5-Sonnet（52.0）高出将近 20 个点。在开放式对话评测中，DeepSeek-V3 的回答质量明显更受偏好。

3. 训练成本只有 LLaMA 3.1 的 1/5

Meta 训练 LLaMA 3.1 405B 用了约 3000 万 GPU 小时，DeepSeek-V3 参数更多（671B vs 405B），只用了 278.8 万 GPU 小时。FP8 + 计算通信重叠，效率提升巨大。

4. 事实性问答还有短板

SimpleQA 等事实性问答上还落后于 GPT-4o，说明知识准确性还有提升空间。但综合来看，目前最强开源大模型没有之一。

推理框架支持

官方只提供 FP8 权重，需要 BF16 可用脚本转换 / 仅支持 Linux + Python 3.10

SGLang

BF16/FP8 推理，MLA 优化，FP8 KV Cache，NVIDIA 和 AMD GPU 都支持

vLLM

FP8/BF16，张量并行+流水线并行，多机部署

LMDeploy

FP8/BF16 推理，本地和云端都能跑

TensorRT-LLM

BF16 推理，INT4/8 量化，FP8 还在开发中

LightLLM

单机/多机张量并行

华为昇腾 NPU

通过 MindIE 框架，INT8 和 BF16

在线聊天
API 接口
Base 模型
Chat 模型
论文原文

许可证

代码：MIT 许可证
模型：自有许可证，支持商业使用
模型总大小 685B（671B 主模型权重 + 14B 多 token 预测模块权重）

一句话总结：DeepSeek-V3 最让人意外的不是跑分，而是训练成本。557 万美元训练一个 671B 的模型，跑分压着 GPT-4o 打，这在一年前根本不敢想。无辅助损失负载均衡解决了 MoE 老大难问题，FP8 训练跑通超大模型，从 R1 蒸馏推理能力思路巧妙，训练全程零事故——工程能力确实硬。

论文地址：arxiv.org/abs/2412.19437 | 模型权重：HuggingFace deepseek-ai | 数据来源：DeepSeek-V3 技术论文

671B 参数，557 万美元训练成本

架构创新

无辅助损失的负载均衡

多 token 预测（MTP）

MLA + DeepSeekMoE（继承 V2）

训练效率

FP8 混合精度训练

计算通信重叠

从 R1 蒸馏推理能力

跑分成绩

综合能力 vs 开源模型

数学和代码能力 vs 开源模型

vs 闭源模型

开放式对话评测

四个关键发现

1. AIME 2024 竞赛数学碾压

2. AlpacaEval 2.0 胜率 70.0

3. 训练成本只有 LLaMA 3.1 的 1/5

4. 事实性问答还有短板

推理框架支持

发表评论 取消回复

发表评论取消回复