DeepSeek又发新模型了。这次是V4,主打一个方向:让百万Token的长上下文真正可用,而不是停留在纸面上。
先说两个模型的规模:
– DeepSeek-V4-Pro:1.6万亿参数,激活490亿
– DeepSeek-V4-Flash:2840亿参数,激活130亿
两个都支持100万Token上下文。Pro版对标旗舰,Flash版走轻量路线。
老问题:注意力机制太贵了
注意力机制的计算量随序列长度平方增长,这是Transformer的老毛病。上下文一长,计算量和内存占用就爆炸。之前各家都在想办法绕开这个限制,但真正把上下文做到百万Token还能保持效率的,不多。
DeepSeek-V4的思路是:既然注意力是瓶颈,那就从注意力机制本身动手。
三大架构改动
1. CSA(压缩稀疏注意力)
核心做法是先把KV缓存压缩,每m个Token的键值对压成一个,序列长度直接缩到1/m。然后用一个轻量级索引器(Lightning Indexer)挑出跟当前查询最相关的k个压缩KV条目,只在这些上面做注意力计算。同时还保留了少量滑动窗口的局部KV条目,保证短距离依赖不丢失。
简单说就是:先压缩,再筛选,只算重要的部分。
2. HCA(重度压缩注意力)
比CSA更激进。压缩率m’远大于m,每m’个Token压成一个。不做稀疏选择,直接对所有压缩后的KV条目做密集注意力。因为压缩率很高,实际参与计算的数量也不大。
CSA和HCA交错使用,在不同层搭配不同的注意力策略。这种混合配置在百万Token上下文下,把注意力计算量从O(n2)拉到了近似线性。
3. mHC(流形约束超连接)
这是对残差连接的改进。把残差映射矩阵约束到双随机矩阵流形上(数学上叫Birkhoff多面体),通过Sinkhorn-Knopp算法实现。约束的效果是保证残差变换的谱范数不超过1,避免信号在深层网络中越传越偏。
参数分为动态(跟输入有关)和静态(跟输入无关)两个分量,比普通残差连接多了一些建模能力。
效率到底提升了多少
百万Token上下文下,跟上一代V3.2对比:
| 模型 | 推理FLOPs | KV缓存 |
|---|---|---|
| V4-Pro | V3.2的27%(省3.7倍) | V3.2的10%(省9.5倍) |
| V4-Flash | V3.2的10%(省9.8倍) | V3.2的7%(省13.7倍) |
Flash版更省,因为它本来就更小,压缩空间更大。
这意味着什么?V4-Pro处理百万Token上下文,只需要V3.2不到三分之一的算力、十分之一的显存。Flash版更夸张,算力只需要十分之一。
训练细节
– V4-Flash:32万亿Token预训练
– V4-Pro:33万亿Token预训练
– 优化器换成了Muon,收敛更快,训练更稳
– 引入了FP4量化感知训练,对MoE专家权重和索引器QK路径做量化,省内存省算力
Muon优化器是个值得关注的点。之前大规模训练基本都用AdamW,DeepSeek这次换Muon,说明他们在大规模MoE场景下做了充分的对比验证。
后训练:先分后合
后训练分两步走,思路挺有意思的:
第一步:各练各的
数学、编程、智能体、指令跟随,每个领域单独训练一个专家模型。先用SFT微调,再用GRPO强化学习进一步优化。
第二步:蒸馏合一
用在策略蒸馏(On-Policy Distillation)把十多个专家模型的能力统一到一个模型里。关键细节:用的是全词汇表logit蒸馏,不是简单的token级别硬标签,梯度估计更稳定。
这种先分后合的做法避免了传统权重合并或混合RL常见的性能退化问题。每个专家先把自己的领域学透,再由蒸馏把能力融合,比一步到位硬塞所有能力效果好。
性能怎么样
开源模型里基本是最强的一档:
– 知识类(SimpleQA、MMLU-Pro等):显著优于开源对手,跟Gemini-3.1-Pro的差距缩小了很多但还差一点
– 推理类:超过GPT-5.2和Gemini-3.0-Pro,跟GPT-5.4和Gemini-3.1-Pro差一点点,大概3-6个月的差距
– 长上下文:百万Token学术基准上超过Gemini-3.1-Pro
– 智能体:超过Claude Sonnet 4.5,接近Opus 4.5
– 中文写作、搜索、代码智能体等真实任务表现不错
V4-Pro-Max是最大推理力度模式,给更多思考预算时性能还能再涨。V4-Flash-Max在分配更大思考预算时,推理能力也能接近Pro版。
还差什么
目前还是预览版,几个明显短板:
– 知识类基准跟顶级闭源模型(Gemini-3.1-Pro)还有差距
– 推理能力距最前沿的GPT-5.4约3-6个月
– 智能体能力在公开基准上跟Kimi-K2.6、GLM-5.1持平,离前沿闭源还差一截
基础设施也不容忽视
报告里花了不少篇幅讲工程优化:
– MoE模块做了计算-通信完全重叠的融合内核,消除等待开销
– 用TileLang(一种DSL)开发高效内核,开发效率和运行性能兼顾
– FP4量化感知训练,目前FP4乘FP8峰值FLOPs跟FP8乘FP8一样,但未来硬件上理论还能再快三分之一
– 推理端支持磁盘KV缓存存储,共享前缀可以复用,这对大规模部署百万Token上下文很关键
我的看法
DeepSeek-V4最大的贡献不是某个具体指标刷了多少分,而是证明了百万Token上下文在工程上可以做得高效且实用。之前很多模型声称支持长上下文,但实际跑起来慢得没法用。V4把推理FLOPs降到V3.2的27%、KV缓存降到10%,这个效率提升是实打实的。
CSA+HCA的混合注意力思路值得关注。不是简单粗暴地截断或稀疏化,而是通过不同层使用不同压缩策略来平衡效果和效率。这种对症下药的思路比一刀切优雅得多。
mHC对残差连接的改进是个小而美的设计。双随机矩阵约束保证了信号传播的稳定性,在超深网络里这种保证是有实际意义的。
后训练的先分后合策略也值得借鉴。直接在一个模型上同时做所有领域的强化学习,很容易互相打架。先分练再蒸馏,逻辑上更清晰,效果上也更好。
当然,跟闭源前沿还有差距,3-6个月的距离不算大也不算小。但考虑到这是开源模型,能做到这个程度已经很有竞争力了。
模型权重已发布在HuggingFace:https://huggingface.co/collections/deepseek-ai/deepseek-v4
原始论文:DeepSeek-V4 Technical Report, DeepSeek-AI, 2026