DeepSeek-V4 技术报告解读:百万Token上下文是怎么做到的

DeepSeek又发新模型了。这次是V4,主打一个方向:让百万Token的长上下文真正可用,而不是停留在纸面上。

先说两个模型的规模:

– DeepSeek-V4-Pro:1.6万亿参数,激活490亿
– DeepSeek-V4-Flash:2840亿参数,激活130亿

两个都支持100万Token上下文。Pro版对标旗舰,Flash版走轻量路线。

老问题:注意力机制太贵了

注意力机制的计算量随序列长度平方增长,这是Transformer的老毛病。上下文一长,计算量和内存占用就爆炸。之前各家都在想办法绕开这个限制,但真正把上下文做到百万Token还能保持效率的,不多。

DeepSeek-V4的思路是:既然注意力是瓶颈,那就从注意力机制本身动手。

三大架构改动

1. CSA(压缩稀疏注意力)

核心做法是先把KV缓存压缩,每m个Token的键值对压成一个,序列长度直接缩到1/m。然后用一个轻量级索引器(Lightning Indexer)挑出跟当前查询最相关的k个压缩KV条目,只在这些上面做注意力计算。同时还保留了少量滑动窗口的局部KV条目,保证短距离依赖不丢失。

简单说就是:先压缩,再筛选,只算重要的部分。

2. HCA(重度压缩注意力)

比CSA更激进。压缩率m’远大于m,每m’个Token压成一个。不做稀疏选择,直接对所有压缩后的KV条目做密集注意力。因为压缩率很高,实际参与计算的数量也不大。

CSA和HCA交错使用,在不同层搭配不同的注意力策略。这种混合配置在百万Token上下文下,把注意力计算量从O(n2)拉到了近似线性。

3. mHC(流形约束超连接)

这是对残差连接的改进。把残差映射矩阵约束到双随机矩阵流形上(数学上叫Birkhoff多面体),通过Sinkhorn-Knopp算法实现。约束的效果是保证残差变换的谱范数不超过1,避免信号在深层网络中越传越偏。

参数分为动态(跟输入有关)和静态(跟输入无关)两个分量,比普通残差连接多了一些建模能力。

效率到底提升了多少

百万Token上下文下,跟上一代V3.2对比:

模型 推理FLOPs KV缓存
V4-Pro V3.2的27%(省3.7倍) V3.2的10%(省9.5倍)
V4-Flash V3.2的10%(省9.8倍) V3.2的7%(省13.7倍)

Flash版更省,因为它本来就更小,压缩空间更大。

这意味着什么?V4-Pro处理百万Token上下文,只需要V3.2不到三分之一的算力、十分之一的显存。Flash版更夸张,算力只需要十分之一。

训练细节

– V4-Flash:32万亿Token预训练
– V4-Pro:33万亿Token预训练
– 优化器换成了Muon,收敛更快,训练更稳
– 引入了FP4量化感知训练,对MoE专家权重和索引器QK路径做量化,省内存省算力

Muon优化器是个值得关注的点。之前大规模训练基本都用AdamW,DeepSeek这次换Muon,说明他们在大规模MoE场景下做了充分的对比验证。

后训练:先分后合

后训练分两步走,思路挺有意思的:

第一步:各练各的

数学、编程、智能体、指令跟随,每个领域单独训练一个专家模型。先用SFT微调,再用GRPO强化学习进一步优化。

第二步:蒸馏合一

用在策略蒸馏(On-Policy Distillation)把十多个专家模型的能力统一到一个模型里。关键细节:用的是全词汇表logit蒸馏,不是简单的token级别硬标签,梯度估计更稳定。

这种先分后合的做法避免了传统权重合并或混合RL常见的性能退化问题。每个专家先把自己的领域学透,再由蒸馏把能力融合,比一步到位硬塞所有能力效果好。

性能怎么样

开源模型里基本是最强的一档:

– 知识类(SimpleQA、MMLU-Pro等):显著优于开源对手,跟Gemini-3.1-Pro的差距缩小了很多但还差一点
– 推理类:超过GPT-5.2和Gemini-3.0-Pro,跟GPT-5.4和Gemini-3.1-Pro差一点点,大概3-6个月的差距
– 长上下文:百万Token学术基准上超过Gemini-3.1-Pro
– 智能体:超过Claude Sonnet 4.5,接近Opus 4.5
– 中文写作、搜索、代码智能体等真实任务表现不错

V4-Pro-Max是最大推理力度模式,给更多思考预算时性能还能再涨。V4-Flash-Max在分配更大思考预算时,推理能力也能接近Pro版。

还差什么

目前还是预览版,几个明显短板:

– 知识类基准跟顶级闭源模型(Gemini-3.1-Pro)还有差距
– 推理能力距最前沿的GPT-5.4约3-6个月
– 智能体能力在公开基准上跟Kimi-K2.6、GLM-5.1持平,离前沿闭源还差一截

基础设施也不容忽视

报告里花了不少篇幅讲工程优化:

– MoE模块做了计算-通信完全重叠的融合内核,消除等待开销
– 用TileLang(一种DSL)开发高效内核,开发效率和运行性能兼顾
– FP4量化感知训练,目前FP4乘FP8峰值FLOPs跟FP8乘FP8一样,但未来硬件上理论还能再快三分之一
– 推理端支持磁盘KV缓存存储,共享前缀可以复用,这对大规模部署百万Token上下文很关键

我的看法

DeepSeek-V4最大的贡献不是某个具体指标刷了多少分,而是证明了百万Token上下文在工程上可以做得高效且实用。之前很多模型声称支持长上下文,但实际跑起来慢得没法用。V4把推理FLOPs降到V3.2的27%、KV缓存降到10%,这个效率提升是实打实的。

CSA+HCA的混合注意力思路值得关注。不是简单粗暴地截断或稀疏化,而是通过不同层使用不同压缩策略来平衡效果和效率。这种对症下药的思路比一刀切优雅得多。

mHC对残差连接的改进是个小而美的设计。双随机矩阵约束保证了信号传播的稳定性,在超深网络里这种保证是有实际意义的。

后训练的先分后合策略也值得借鉴。直接在一个模型上同时做所有领域的强化学习,很容易互相打架。先分练再蒸馏,逻辑上更清晰,效果上也更好。

当然,跟闭源前沿还有差距,3-6个月的距离不算大也不算小。但考虑到这是开源模型,能做到这个程度已经很有竞争力了。

模型权重已发布在HuggingFace:https://huggingface.co/collections/deepseek-ai/deepseek-v4

原始论文:DeepSeek-V4 Technical Report, DeepSeek-AI, 2026

发表评论