DeepSeek-V4 技术分析报告¶

基于 DeepSeek-V4 技术报告整理，重点分析其在百万 token 上下文、高效注意力、MoE 训练稳定性、低精度推理和后训练范式上的技术意义。

1. 基本信息¶

名称：DeepSeek-V4
类型：MoE / Reasoning Model / Long-Context Model / Agent Model
发布时间：2026 年 4 月 24 日技术报告版本
来源：DeepSeek-V4 技术报告、官方 Hugging Face 模型集合
核心模型：
DeepSeek-V4-Pro：1.6T 总参数，49B 激活参数
DeepSeek-V4-Flash：284B 总参数，13B 激活参数
上下文长度：原生支持 1M tokens

2. 为什么值得关注¶

DeepSeek-V4 的重点不是简单扩大参数规模，而是试图突破超长上下文的效率瓶颈。传统 Transformer 注意力在序列长度增加时会带来极高的计算与 KV Cache 存储成本，这限制了 test-time scaling、长程推理、跨文档分析和复杂 Agent 工作流。

DeepSeek-V4 用混合注意力架构、MoE 稀疏激活、FP4 低精度、训练稳定性技巧和推理系统优化组成了一条完整路线：让百万 token 上下文从展示性能力变成更接近日常可用的模型能力。

它值得纳入这套笔记体系，是因为它同时连接了多个主线主题：

Attention 从全量计算走向压缩、稀疏和分层检索。
MoE 从“扩大参数量”走向“控制激活成本和训练稳定性”。
后训练从单一 SFT/RL 流程走向多领域专家训练和统一蒸馏。
Agent 和长上下文正在推动模型架构本身发生变化。
推理部署的瓶颈从纯算力扩展到 KV Cache、低精度、缓存复用和长序列调度。

3. 核心技术拆解¶

架构层¶

DeepSeek-V4 继承了 DeepSeekMoE 和 Multi-Token Prediction，同时引入三项关键变化：混合注意力、Manifold-Constrained Hyper-Connections，以及 Muon 优化器。

最关键的是混合注意力架构。DeepSeek-V4 将 CSA 与 HCA 交替使用：

CSA（Compressed Sparse Attention）：先把多个 token 的 KV 条目压缩成一个条目，再用稀疏选择机制只关注 top-k 个压缩 KV 条目。它适合在超长上下文中进行全局信息定位。
HCA（Heavily Compressed Attention）：采用更高压缩率，将更长片段压缩成单个 KV 条目，但保留密集注意力。它适合用较低成本维持远距离信息覆盖。
滑动窗口分支：由于压缩块可能损失局部细节，模型额外保留最近 token 的未压缩 KV 条目，用于增强局部依赖建模。

在 1M token 场景下，报告称 DeepSeek-V4-Pro 相比 DeepSeek-V3.2 只需要约 27% 的单 token 推理 FLOPs 和 10% 的 KV Cache；DeepSeek-V4-Flash 则降低到约 10% FLOPs 和 7% KV Cache。

训练层¶

DeepSeek-V4-Pro 使用 33T tokens 预训练，DeepSeek-V4-Flash 使用 32T tokens 预训练。训练序列长度从 4K 逐步扩展到 16K、64K，最终扩展到 1M。

训练中的几个关键点：

大部分参数使用 Muon optimizer，embedding、prediction head、RMSNorm 等模块保留 AdamW。
训练早期先使用 dense attention 预热，再在更长序列阶段引入 sparse attention。
使用辅助 loss-free load balancing，并保留小权重 balance loss，防止单序列内专家负载极端不均。
使用 MTP loss 辅助训练，多数训练阶段权重为 0.3，学习率衰减阶段降到 0.1。

DeepSeek-V4 还明确讨论了万亿参数 MoE 训练中的不稳定性，并采用两类技巧：

Anticipatory Routing：用历史参数提前计算路由索引，降低路由变化与主干网络同步更新带来的 loss spike。
SwiGLU Clamping：限制 SwiGLU 中部分激活值范围，抑制 MoE 层异常值扩散。

这说明大规模 MoE 的难点不只是专家数量和通信效率，还包括路由机制、异常值和训练动态之间的耦合。

推理 / Agent 层¶

DeepSeek-V4 的百万 token 上下文直接服务于长程推理和 Agent 任务。报告中特别强调，长上下文让模型可以在工具调用失败、状态丢失或多轮任务推进时，从更完整的历史中恢复问题求解状态。

后训练采用两阶段范式：

先针对数学、代码、Agent、指令跟随等领域分别训练专家模型。
再通过 on-policy distillation 将多个专家能力整合到统一模型。

这是一种值得关注的后训练路线：不是试图让一个模型在单一 RL 阶段中同时学会所有能力，而是先让领域专家充分发展，再把专家策略蒸馏给统一学生模型。

工程层¶

DeepSeek-V4 的工程优化覆盖训练、推理和低精度：

MoE 模块使用融合 kernel，重叠计算、通信和内存访问。
使用 TileLang 提升 kernel 开发效率和运行性能。
使用 batch-invariant 和 deterministic kernel，保证训练和推理的 bitwise reproducibility。
对 MoE expert weights 和 indexer QK path 使用 FP4 量化感知训练。
KV Cache 使用 BF16 与 FP8 混合存储，并设计异构 KV Cache 结构。
支持 on-disk KV Cache 存储和共享前缀复用，降低长上下文服务成本。

这些工程设计说明，百万 token 上下文不是单靠模型结构解决的能力，而是架构、训练框架、低精度数值格式、缓存系统和 serving 共同作用的结果。

4. 与已有知识体系的映射¶

第 5 章：Attention 机制
CSA、HCA、稀疏注意力、压缩 KV、滑动窗口注意力。
第 6 章：Transformer 架构
mHC 对残差连接的增强，MoE Transformer 的结构变化。
第 9 章：预训练 Pretraining
长上下文 curriculum、dense-to-sparse attention 训练策略、训练稳定性。
第 10 章：Scaling Law 与大模型为什么变大
从参数扩展转向 test-time scaling、上下文扩展和激活参数效率。
第 11 章：LLM 评估
长上下文、Agent、代码、推理、知识评测的综合比较。
第 14 章：偏好对齐
GRPO、RL、on-policy distillation、多专家后训练合并。
第 17 章：Agent 与 Tool Calling
长程任务、工具调用状态恢复、Agentic Search、代码 Agent。
第 18 章：LLMOps、部署与生产化
FP4、KV Cache 管理、on-disk cache、推理 FLOPs 与服务成本优化。

归类判断：DeepSeek-V4 不是单个全新概念，而是多个已有趋势的系统性组合。它更适合作为“下一代长上下文 MoE 推理模型”的综合案例。

5. 值得写进主线笔记的内容¶

稳定、可复用的核心原理：

长上下文的核心瓶颈是 attention FLOPs 与 KV Cache，而不只是窗口长度。
压缩注意力和稀疏注意力可以组合使用：先降低序列长度，再选择关键块。
近端信息和远端信息需要不同机制处理，滑动窗口分支是重要补偿。
MoE 的训练稳定性与路由机制强相关，路由异常会放大激活异常。
低精度不是部署阶段才考虑的优化，可能需要从训练阶段做 quantization-aware training。
后训练可以拆成“领域专家训练”和“统一模型蒸馏”两个阶段。

更适合放在扩展阅读或案例中的内容：

mHC 的完整数学推导。
Muon 的 hybrid Newton-Schulz 迭代细节。
TileLang、确定性 kernel、on-disk KV Cache 的具体实现。
各个 benchmark 的详细分数对比。

6. 初学者应该重点理解什么¶

如果只讲 3 个点，建议抓住：

百万 token 上下文不是简单把 RoPE 外推到 1M
真正的难点是每生成一个 token 都要面对超长历史带来的计算和 KV Cache 压力。
DeepSeek-V4 的注意力是“压缩 + 稀疏 + 局部窗口”的组合
远处信息用压缩表示，重要远程块用稀疏选择，最近信息用滑动窗口保真。
大模型能力提升正在从参数规模转向系统效率
MoE、FP4、KV Cache、test-time scaling、Agent 长程任务会一起决定模型是否真的可用。

容易被宣传带偏的地方：

不能只看“1M context”这个数字，要看 1M 下的推理成本、检索准确性和长任务稳定性。
不能只看总参数量，MoE 模型更应关注激活参数、路由质量和专家负载。
不能把 benchmark 领先等同于所有真实任务领先，尤其是复杂多轮写作、Agent 可靠性和低延迟交互仍需独立验证。

7. 争议点与待验证问题¶

官方报告认为 DeepSeek-V4-Pro-Max 在开放模型中重新定义了 SOTA，并在部分长上下文任务上超过 Gemini-3.1-Pro。这个判断在技术报告内部有评测支持，但仍需要社区复现和第三方 benchmark 验证。

待验证问题包括：

CSA/HCA 在不同类型长上下文任务上的召回损失有多大。
压缩 KV 对细粒度引用、法律/代码/表格类任务是否存在系统性弱点。
Anticipatory Routing 与 SwiGLU Clamping 的理论机制尚不清晰，是否能泛化到其他 MoE 架构。
FP4 在更多硬件平台上的实际收益，是否能达到报告中的理论预期。
1M 上下文在真实服务中如何平衡延迟、成本和用户体验。

我的判断是：DeepSeek-V4 最值得学习的不是某个单独模块，而是它把长上下文建模、稀疏计算、低精度训练、后训练专家蒸馏和推理系统放在同一设计空间里考虑。这类系统性工程路线，很可能比单点模型技巧更能代表下一阶段 LLM 竞争。

8. 可补充材料¶

论文 / 技术报告：本地文件 /Users/ferrisliu/Downloads/DeepSeek_V4.pdf
官方模型集合：https://huggingface.co/collections/deepseek-ai/deepseek-v4
官方推理实现：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/tree/main/inference
建议后续补充：
第三方评测结果
社区复现体验
长上下文真实任务案例
FP4 推理在具体硬件上的成本数据

9. 笔记状态¶

状态：已完成初版
是否需要回写正式章节：是
优先回写章节：
第 5 章 Attention 机制
第 6 章 Transformer 架构
第 17 章 Agent 与 Tool Calling
第 18 章 LLMOps、部署与生产化
下次更新时重点补充什么：
社区第三方评测
与同代模型在真实长上下文任务上的对比
CSA/HCA 的图示化解释
KV Cache 成本计算示例