DeepSeek 这些年的研究轨迹：他们在哪些方向上做布局？

2026-04-27 4 阅读7分钟

前几天，DeepSeek 发布 V4，再度上热搜。回顾这些年，一篇篇论文，DeepSeek 在哪些方向持续布局？我们一起来看看。

主路：大语言模型本身，以及为「训得动、推得起」服务的一套东西——MoE、压 KV/注意力、越来越长的上下文、到 V3/V3.2/V4 上继续加码的效率与工程。能力往上走，算力、显存、训练能不能稳。
专线：不打算只靠「通用聊天」一肩扛——代码（Coder 系）、数学与证明（Math / Prover 系）、多模态（VL / Janus 系）、文档与 OCR，都是在同一条底座上，把某一类任务打深。
同盘棋里还有一层：会推理、会用工具、要当 Agent 时，R1 带的 RL 路线、奖励与推理时扩展等后训练；再往下，集群、硬件、带宽、存算——模型论文和系统常常一起出现，不是只问「准不准」不问「花不花得起」。

一、领域地图：把布局想成「几块拼图」

领域	普通人能听懂的版本	代表方向（均为 DeepSeek 署名或组织公开论文/报告）
大模型本身	聊天、长文本、省算力	LLM 基座 → MoE → V2（更省 KV）→ V3 / V3.1 / V3.2 → V4（百万字级别上下文、新注意力与工程）
编程	写代码、对打「闭源很强」的叙事	DeepSeek-Coder、Coder-V2
数学与证明	考试题、竞赛、机器写证明	DeepSeek-Math、Prover 多代、DeepSeekMath-V2
多模态	看图说话、文生图一起练	DeepSeek-VL、VL2、Janus / JanusFlow / Janus-Pro
文档与 OCR	长 PDF、版式、扫描件	DeepSeek-OCR、DeepSeek-OCR 2
效率与结构	稀疏、更轻的连接方式	原生稀疏注意（NSA）、mHC、条件记忆等（偏论文向）
训练与机器	钱和卡怎么花、集群怎么用	Fire-Flyer、V3 硬件反思、推理侧如 DualPath 等
「会动脑子」	链式思考、RL、当 Agent	R1、奖励与推理时扩展、ESFT 等微调线

二、机制矩阵：用一张表记「每代在优化什么对象」

对象	典型落点	在公开材料中的显式落笔
FFN 算力	MoE、路由、负载均衡、专家专门化	MoE 专文（2401.06066）；V3 auxiliary-loss-free 负载均衡（2412.19437）；ESFT 等只动子专家的微调线（2407.01906）
KV / 注意力的访存与长度	MLA；原生/DSA 等稀疏注意；V4 侧混合注意与块结构	V2 摘要中的 MLA（2405.04434）；NSA、V3.2 摘要中的 DSA 等（2502.11089、2512.02556）；V4 以技术报告与 deepseek-v4 下解读为准
训练目标	CE、MTP、续训、任务/数据倾斜	V3 摘要中的 MTP（2412.19437）；Coder-V2 自 V2 中检查点再训等（2406.11931）；V3.2 摘要中 Agent 向数据合成等表述（2512.02556）
推理与后训练	纯 RL、奖励与推理时扩展、蒸馏到小模型	R1（2501.12948）；推理时扩展与通用奖励（2504.02495）；V3.2 摘要中可扩展 RL 等（2512.02556）
总拥有成本	GPU hours、吞吐/显存比、训练稳定性	V2、V3 摘要中的 H800 小时、费效与吞吐/缓存比例（跨任务混比须回到原文条件）
多线任务与形态	代码、数学、证明、多模、版式与 OCR（评测与数据形态不同于「纯聊天」）	Coder / Math / Prover、VL·Janus、OCR 各系专文（见第三节年表与第一节领域图）
系统与机架费效	集群、网络、带宽、Agent 侧推理/存储	Fire-Flyer AI-HPC（2408.14158）；V3 规模与硬件反思（2505.09343）；DualPath 等（2602.21548）

三、时间轴上的论文清单

3.1 约 2024：把「能训大、能省、多线并行」立起来

arXiv	题目	一句话角色
2401.02954	DeepSeek LLM（开源与长期主义训练叙事）	讲清开源 7B/67B 基座与分阶段、长程训练配置，为后续主线打底。
2401.06066	DeepSeekMoE（专家怎样更「专」）	用细粒度专家 + 共享专家等设计，把「省算又够专」的 MoE 讲透。
2401.14196	DeepSeek-Coder	把代码补全/生成从通用聊天里单拉成线，做编程向专用大模型。
2402.03300	DeepSeek-Math	以数学/推理数据为轴做能力拉升，对竞赛、思维链类任务可核对。
2403.05525	DeepSeek-VL	多模态对齐，让同一会话里能读图、能图文混说。
2405.04434	DeepSeek-V2（含 MLA 等，主线里程碑）	主线大版本：在 MoE/MLA 等上把显存、吞吐与可训性再压一截。
2405.14333	DeepSeek-Prover	接形式化/定理证明任务，让模型在证明数据与过程上成一条链。
2406.11931	DeepSeek-Coder-V2	代码线二代：在规模与多语言上把「写程序」这条线做深。
2407.01906	ESFT（稀疏大模型上「专家化微调」）	在超大 MoE 上只动相关专家，省算、省动参的微调路。
2408.08152	DeepSeek-Prover-V1.5	证明器 1.5：在数据与过程上迭代一版，抬证明侧上限。
2408.14158	Fire-Flyer AI-HPC（软件硬件协同、训练费效）	从软件栈到网络/带宽，讲「同规模集群怎么更满、更省钱」的训推工程。
2408.15664	MoE 无辅助损负载均衡（常和 V3 叙事一起被引用）	去掉部分辅助损也能稳住各专家活忙比例，为大规模 MoE 清路障。
2410.13848	Janus（多模统一）	统一框架里做理解与生成，把多模从「能接两模」推向一体设计。
2411.07975	JanusFlow	把自回归与 flow 等生成侧思路并到 Janus 系里，做生成质量与可控性。
2412.10302	DeepSeek-VL2	多模理解第二代：更高分辨率/多图等，把「看图说话」的底座做厚。
2412.19437	DeepSeek-V3 技术报告	整包摊开：从架构、数据、后训练到评测与算力表，可作 V3 的权威信源。

3.2 约 2025：推理（R1）、稀疏、OCR、数学二代、V3.2 与周边

arXiv	题目（简）	一句话角色
2501.12948	DeepSeek-R1（强化学习推推理能力）	用可验证/可学习奖励做 RL，把可复现的「长思考链」推理路线写清楚。
2501.17811	Janus-Pro	多模 Janus 系增强款：在理解与生成上偏实战规模的一体化。
2502.11089	Native Sparse Attention（硬件友好的稀疏注意）	原生稀疏注意：在更长序列上省算、尽量不伤精度，偏硬件可落地。
2504.02495	推理时扩展与通用奖励建模	把「多算一步」的推理时扩展和通用奖励设计绑在一篇里。
2504.21801	DeepSeek-Prover-V2	证明 V2：更大模型/更大证明面，和形式化数据管线一起前推。
2505.09343	对 V3 的规模与硬件反思	以 V3 为案例做规模、带宽、机架与成本的「事后可核对」复盘。
2510.18234	DeepSeek-OCR	把长版式/长 PDF 当可压缩视觉流做 OCR+理解，走文档向底座。
2511.22570	DeepSeekMath-V2	数学向第二代：在基座与数据上继续把竞赛/证明类能力抬一档。
2512.02556	DeepSeek-V3.2（含稀疏注意 DSA 等，摘要里与业界强模型对比）	主线在 V3 上的小步进：把 DSA 等与公开对照、摘要数字写进同文。
2512.24880	mHC（超连接/残差流改进向）	超连接一类结构改进，给深层/宽连接多一种可训配方。
2601.07372	条件记忆与可扩展查找（稀疏另一轴）	条件记忆 + 可扩展查表：在固定算力下多塞一段「能触发」的长记忆。

3.3 约 2026：OCR 续篇、Agent 与推理工程，V4

arXiv	题目（简）	一句话角色
2601.20552	DeepSeek-OCR 2（Visual Causal Flow）	OCR 续篇，用「视觉因果流」等加强版面/阅读顺序与长文档可解析性。
2602.21548	DualPath（Agent 场景下推理与存储带宽）	Agent 侧系统向：在推理算力与存储/带宽上协同省成本、撑并发。
—	DeepSeek-V4（Towards Highly Efficient Million-Token Context Intelligence）	技术报告体：把百万级上下文、高效注意力/工程堆叠等写成可引用的主叙事。

可核对：引文与数据以各篇 arXiv 与 PDF 原文为准；V4 以官方技术报告与 Hugging Face deepseek-v4 合集发布为准。