DeepSeek-V4 技术报告解读：百万Token上下文是怎么做到的

DeepSeek又发新模型了。这次是V4，主打一个方向：让百万Token的长上下文真正可用，而不是停留在纸面上。

先说两个模型的规模：

– DeepSeek-V4-Pro：1.6万亿参数，激活490亿
– DeepSeek-V4-Flash：2840亿参数，激活130亿

两个都支持100万Token上下文。Pro版对标旗舰，Flash版走轻量路线。

老问题：注意力机制太贵了

注意力机制的计算量随序列长度平方增长，这是Transformer的老毛病。上下文一长，计算量和内存占用就爆炸。之前各家都在想办法绕开这个限制，但真正把上下文做到百万Token还能保持效率的，不多。

DeepSeek-V4的思路是：既然注意力是瓶颈，那就从注意力机制本身动手。

三大架构改动

1. CSA（压缩稀疏注意力）

核心做法是先把KV缓存压缩，每m个Token的键值对压成一个，序列长度直接缩到1/m。然后用一个轻量级索引器（Lightning Indexer）挑出跟当前查询最相关的k个压缩KV条目，只在这些上面做注意力计算。同时还保留了少量滑动窗口的局部KV条目，保证短距离依赖不丢失。

简单说就是：先压缩，再筛选，只算重要的部分。

2. HCA（重度压缩注意力）

比CSA更激进。压缩率m’远大于m，每m’个Token压成一个。不做稀疏选择，直接对所有压缩后的KV条目做密集注意力。因为压缩率很高，实际参与计算的数量也不大。

CSA和HCA交错使用，在不同层搭配不同的注意力策略。这种混合配置在百万Token上下文下，把注意力计算量从O(n2)拉到了近似线性。

3. mHC（流形约束超连接）

这是对残差连接的改进。把残差映射矩阵约束到双随机矩阵流形上（数学上叫Birkhoff多面体），通过Sinkhorn-Knopp算法实现。约束的效果是保证残差变换的谱范数不超过1，避免信号在深层网络中越传越偏。

参数分为动态（跟输入有关）和静态（跟输入无关）两个分量，比普通残差连接多了一些建模能力。

效率到底提升了多少

百万Token上下文下，跟上一代V3.2对比：

模型	推理FLOPs	KV缓存
V4-Pro	V3.2的27%（省3.7倍）	V3.2的10%（省9.5倍）
V4-Flash	V3.2的10%（省9.8倍）	V3.2的7%（省13.7倍）

Flash版更省，因为它本来就更小，压缩空间更大。

这意味着什么？V4-Pro处理百万Token上下文，只需要V3.2不到三分之一的算力、十分之一的显存。Flash版更夸张，算力只需要十分之一。

训练细节

– V4-Flash：32万亿Token预训练
– V4-Pro：33万亿Token预训练
– 优化器换成了Muon，收敛更快，训练更稳
– 引入了FP4量化感知训练，对MoE专家权重和索引器QK路径做量化，省内存省算力

Muon优化器是个值得关注的点。之前大规模训练基本都用AdamW，DeepSeek这次换Muon，说明他们在大规模MoE场景下做了充分的对比验证。

后训练：先分后合

后训练分两步走，思路挺有意思的：

第一步：各练各的

数学、编程、智能体、指令跟随，每个领域单独训练一个专家模型。先用SFT微调，再用GRPO强化学习进一步优化。

第二步：蒸馏合一

用在策略蒸馏（On-Policy Distillation）把十多个专家模型的能力统一到一个模型里。关键细节：用的是全词汇表logit蒸馏，不是简单的token级别硬标签，梯度估计更稳定。

这种先分后合的做法避免了传统权重合并或混合RL常见的性能退化问题。每个专家先把自己的领域学透，再由蒸馏把能力融合，比一步到位硬塞所有能力效果好。

性能怎么样

开源模型里基本是最强的一档：

– 知识类（SimpleQA、MMLU-Pro等）：显著优于开源对手，跟Gemini-3.1-Pro的差距缩小了很多但还差一点
– 推理类：超过GPT-5.2和Gemini-3.0-Pro，跟GPT-5.4和Gemini-3.1-Pro差一点点，大概3-6个月的差距
– 长上下文：百万Token学术基准上超过Gemini-3.1-Pro
– 智能体：超过Claude Sonnet 4.5，接近Opus 4.5
– 中文写作、搜索、代码智能体等真实任务表现不错

V4-Pro-Max是最大推理力度模式，给更多思考预算时性能还能再涨。V4-Flash-Max在分配更大思考预算时，推理能力也能接近Pro版。

还差什么

目前还是预览版，几个明显短板：

– 知识类基准跟顶级闭源模型（Gemini-3.1-Pro）还有差距
– 推理能力距最前沿的GPT-5.4约3-6个月
– 智能体能力在公开基准上跟Kimi-K2.6、GLM-5.1持平，离前沿闭源还差一截

基础设施也不容忽视

报告里花了不少篇幅讲工程优化：

– MoE模块做了计算-通信完全重叠的融合内核，消除等待开销
– 用TileLang（一种DSL）开发高效内核，开发效率和运行性能兼顾
– FP4量化感知训练，目前FP4乘FP8峰值FLOPs跟FP8乘FP8一样，但未来硬件上理论还能再快三分之一
– 推理端支持磁盘KV缓存存储，共享前缀可以复用，这对大规模部署百万Token上下文很关键

我的看法

DeepSeek-V4最大的贡献不是某个具体指标刷了多少分，而是证明了百万Token上下文在工程上可以做得高效且实用。之前很多模型声称支持长上下文，但实际跑起来慢得没法用。V4把推理FLOPs降到V3.2的27%、KV缓存降到10%，这个效率提升是实打实的。

CSA+HCA的混合注意力思路值得关注。不是简单粗暴地截断或稀疏化，而是通过不同层使用不同压缩策略来平衡效果和效率。这种对症下药的思路比一刀切优雅得多。

mHC对残差连接的改进是个小而美的设计。双随机矩阵约束保证了信号传播的稳定性，在超深网络里这种保证是有实际意义的。

后训练的先分后合策略也值得借鉴。直接在一个模型上同时做所有领域的强化学习，很容易互相打架。先分练再蒸馏，逻辑上更清晰，效果上也更好。

当然，跟闭源前沿还有差距，3-6个月的距离不算大也不算小。但考虑到这是开源模型，能做到这个程度已经很有竞争力了。

模型权重已发布在HuggingFace：https://huggingface.co/collections/deepseek-ai/deepseek-v4

原始论文：DeepSeek-V4 Technical Report, DeepSeek-AI, 2026