前几天,DeepSeek 发布 V4,再度上热搜。回顾这些年,一篇篇论文,DeepSeek 在哪些方向持续布局?我们一起来看看。
- 主路:大语言模型本身,以及为「训得动、推得起」服务的一套东西——MoE、压 KV/注意力、越来越长的上下文、到 V3/V3.2/V4 上继续加码的效率与工程。能力往上走,算力、显存、训练能不能稳。
- 专线:不打算只靠「通用聊天」一肩扛——代码(Coder 系)、数学与证明(Math / Prover 系)、多模态(VL / Janus 系)、文档与 OCR,都是在同一条底座上,把某一类任务打深。
- 同盘棋里还有一层:会推理、会用工具、要当 Agent 时,R1 带的 RL 路线、奖励与推理时扩展等后训练;再往下,集群、硬件、带宽、存算——模型论文和系统常常一起出现,不是只问「准不准」不问「花不花得起」。
一、领域地图:把布局想成「几块拼图」
| 领域 | 普通人能听懂的版本 | 代表方向(均为 DeepSeek 署名或组织公开论文/报告) |
|---|
| 大模型本身 | 聊天、长文本、省算力 | LLM 基座 → MoE → V2(更省 KV)→ V3 / V3.1 / V3.2 → V4(百万字级别上下文、新注意力与工程) |
| 编程 | 写代码、对打「闭源很强」的叙事 | DeepSeek-Coder、Coder-V2 |
| 数学与证明 | 考试题、竞赛、机器写证明 | DeepSeek-Math、Prover 多代、DeepSeekMath-V2 |
| 多模态 | 看图说话、文生图一起练 | DeepSeek-VL、VL2、Janus / JanusFlow / Janus-Pro |
| 文档与 OCR | 长 PDF、版式、扫描件 | DeepSeek-OCR、DeepSeek-OCR 2 |
| 效率与结构 | 稀疏、更轻的连接方式 | 原生稀疏注意(NSA)、mHC、条件记忆等(偏论文向) |
| 训练与机器 | 钱和卡怎么花、集群怎么用 | Fire-Flyer、V3 硬件反思、推理侧如 DualPath 等 |
| 「会动脑子」 | 链式思考、RL、当 Agent | R1、奖励与推理时扩展、ESFT 等微调线 |
二、机制矩阵:用一张表记「每代在优化什么对象」
| 对象 | 典型落点 | 在公开材料中的显式落笔 |
|---|
| FFN 算力 | MoE、路由、负载均衡、专家专门化 | MoE 专文(2401.06066);V3 auxiliary-loss-free 负载均衡(2412.19437);ESFT 等只动子专家的微调线(2407.01906) |
| KV / 注意力的访存与长度 | MLA;原生/DSA 等稀疏注意;V4 侧混合注意与块结构 | V2 摘要中的 MLA(2405.04434);NSA、V3.2 摘要中的 DSA 等(2502.11089、2512.02556);V4 以技术报告与 deepseek-v4 下解读为准 |
| 训练目标 | CE、MTP、续训、任务/数据倾斜 | V3 摘要中的 MTP(2412.19437);Coder-V2 自 V2 中检查点再训等(2406.11931);V3.2 摘要中 Agent 向数据合成 等表述(2512.02556) |
| 推理与后训练 | 纯 RL、奖励与推理时扩展、蒸馏到小模型 | R1(2501.12948);推理时扩展与通用奖励(2504.02495);V3.2 摘要中 可扩展 RL 等(2512.02556) |
| 总拥有成本 | GPU hours、吞吐/显存比、训练稳定性 | V2、V3 摘要中的 H800 小时、费效与吞吐/缓存比例(跨任务混比须回到原文条件) |
| 多线任务与形态 | 代码、数学、证明、多模、版式与 OCR(评测与数据形态不同于「纯聊天」) | Coder / Math / Prover、VL·Janus、OCR 各系专文(见第三节年表与第一节领域图) |
| 系统与机架费效 | 集群、网络、带宽、Agent 侧推理/存储 | Fire-Flyer AI-HPC(2408.14158);V3 规模与硬件反思(2505.09343);DualPath 等(2602.21548) |
三、时间轴上的论文清单
3.1 约 2024:把「能训大、能省、多线并行」立起来
| arXiv | 题目 | 一句话角色 |
|---|
| 2401.02954 | DeepSeek LLM(开源与长期主义训练叙事) | 讲清开源 7B/67B 基座与分阶段、长程训练配置,为后续主线打底。 |
| 2401.06066 | DeepSeekMoE(专家怎样更「专」) | 用细粒度专家 + 共享专家等设计,把「省算又够专」的 MoE 讲透。 |
| 2401.14196 | DeepSeek-Coder | 把代码补全/生成从通用聊天里单拉成线,做编程向专用大模型。 |
| 2402.03300 | DeepSeek-Math | 以数学/推理数据为轴做能力拉升,对竞赛、思维链类任务可核对。 |
| 2403.05525 | DeepSeek-VL | 多模态对齐,让同一会话里能读图、能图文混说。 |
| 2405.04434 | DeepSeek-V2(含 MLA 等,主线里程碑) | 主线大版本:在 MoE/MLA 等上把显存、吞吐与可训性再压一截。 |
| 2405.14333 | DeepSeek-Prover | 接形式化/定理证明任务,让模型在证明数据与过程上成一条链。 |
| 2406.11931 | DeepSeek-Coder-V2 | 代码线二代:在规模与多语言上把「写程序」这条线做深。 |
| 2407.01906 | ESFT(稀疏大模型上「专家化微调」) | 在超大 MoE 上只动相关专家,省算、省动参的微调路。 |
| 2408.08152 | DeepSeek-Prover-V1.5 | 证明器 1.5:在数据与过程上迭代一版,抬证明侧上限。 |
| 2408.14158 | Fire-Flyer AI-HPC(软件硬件协同、训练费效) | 从软件栈到网络/带宽,讲「同规模集群怎么更满、更省钱」的训推工程。 |
| 2408.15664 | MoE 无辅助损负载均衡(常和 V3 叙事一起被引用) | 去掉部分辅助损也能稳住各专家活忙比例,为大规模 MoE 清路障。 |
| 2410.13848 | Janus(多模统一) | 统一框架里做理解与生成,把多模从「能接两模」推向一体设计。 |
| 2411.07975 | JanusFlow | 把自回归与 flow 等生成侧思路并到 Janus 系里,做生成质量与可控性。 |
| 2412.10302 | DeepSeek-VL2 | 多模理解第二代:更高分辨率/多图等,把「看图说话」的底座做厚。 |
| 2412.19437 | DeepSeek-V3 技术报告 | 整包摊开:从架构、数据、后训练到评测与算力表,可作 V3 的权威信源。 |
3.2 约 2025:推理(R1)、稀疏、OCR、数学二代、V3.2 与周边
| arXiv | 题目(简) | 一句话角色 |
|---|
| 2501.12948 | DeepSeek-R1(强化学习推推理能力) | 用可验证/可学习奖励做 RL,把可复现的「长思考链」推理路线写清楚。 |
| 2501.17811 | Janus-Pro | 多模 Janus 系增强款:在理解与生成上偏实战规模的一体化。 |
| 2502.11089 | Native Sparse Attention(硬件友好的稀疏注意) | 原生稀疏注意:在更长序列上省算、尽量不伤精度,偏硬件可落地。 |
| 2504.02495 | 推理时扩展与通用奖励建模 | 把「多算一步」的推理时扩展和通用奖励设计绑在一篇里。 |
| 2504.21801 | DeepSeek-Prover-V2 | 证明 V2:更大模型/更大证明面,和形式化数据管线一起前推。 |
| 2505.09343 | 对 V3 的规模与硬件反思 | 以 V3 为案例做规模、带宽、机架与成本的「事后可核对」复盘。 |
| 2510.18234 | DeepSeek-OCR | 把长版式/长 PDF 当可压缩视觉流做 OCR+理解,走文档向底座。 |
| 2511.22570 | DeepSeekMath-V2 | 数学向第二代:在基座与数据上继续把竞赛/证明类能力抬一档。 |
| 2512.02556 | DeepSeek-V3.2(含稀疏注意 DSA 等,摘要里与业界强模型对比) | 主线在 V3 上的小步进:把 DSA 等与公开对照、摘要数字写进同文。 |
| 2512.24880 | mHC(超连接/残差流改进向) | 超连接一类结构改进,给深层/宽连接多一种可训配方。 |
| 2601.07372 | 条件记忆与可扩展查找(稀疏另一轴) | 条件记忆 + 可扩展查表:在固定算力下多塞一段「能触发」的长记忆。 |
3.3 约 2026:OCR 续篇、Agent 与推理工程,V4
| arXiv | 题目(简) | 一句话角色 |
|---|
| 2601.20552 | DeepSeek-OCR 2(Visual Causal Flow) | OCR 续篇,用「视觉因果流」等加强版面/阅读顺序与长文档可解析性。 |
| 2602.21548 | DualPath(Agent 场景下推理与存储带宽) | Agent 侧系统向:在推理算力与存储/带宽上协同省成本、撑并发。 |
| — | DeepSeek-V4(Towards Highly Efficient Million-Token Context Intelligence) | 技术报告体:把百万级上下文、高效注意力/工程堆叠等写成可引用的主叙事。 |
可核对:引文与数据以各篇 arXiv 与 PDF 原文为准;V4 以官方技术报告与 Hugging Face deepseek-v4 合集 发布为准。