DeepSeek 这些年的研究轨迹:他们在哪些方向上做布局?

4 阅读7分钟

前几天,DeepSeek 发布 V4,再度上热搜。回顾这些年,一篇篇论文,DeepSeek 在哪些方向持续布局?我们一起来看看。

  • 主路:大语言模型本身,以及为「训得动、推得起」服务的一套东西——MoE、压 KV/注意力、越来越长的上下文、到 V3/V3.2/V4 上继续加码的效率与工程。能力往上走,算力、显存、训练能不能稳
  • 专线:不打算只靠「通用聊天」一肩扛——代码(Coder 系)、数学与证明(Math / Prover 系)、多模态(VL / Janus 系)、文档与 OCR,都是在同一条底座上,把某一类任务打深。
  • 同盘棋里还有一层会推理、会用工具、要当 Agent 时,R1 带的 RL 路线、奖励与推理时扩展等后训练;再往下,集群、硬件、带宽、存算——模型论文和系统常常一起出现,不是只问「准不准」不问「花不花得起」。

一、领域地图:把布局想成「几块拼图」

领域普通人能听懂的版本代表方向(均为 DeepSeek 署名或组织公开论文/报告)
大模型本身聊天、长文本、省算力LLM 基座 → MoE → V2(更省 KV)→ V3 / V3.1 / V3.2 → V4(百万字级别上下文、新注意力与工程)
编程写代码、对打「闭源很强」的叙事DeepSeek-Coder、Coder-V2
数学与证明考试题、竞赛、机器写证明DeepSeek-Math、Prover 多代、DeepSeekMath-V2
多模态看图说话、文生图一起练DeepSeek-VL、VL2、Janus / JanusFlow / Janus-Pro
文档与 OCR长 PDF、版式、扫描件DeepSeek-OCR、DeepSeek-OCR 2
效率与结构稀疏、更轻的连接方式原生稀疏注意(NSA)、mHC、条件记忆等(偏论文向)
训练与机器钱和卡怎么花、集群怎么用Fire-Flyer、V3 硬件反思、推理侧如 DualPath 等
「会动脑子」链式思考、RL、当 AgentR1、奖励与推理时扩展、ESFT 等微调线

二、机制矩阵:用一张表记「每代在优化什么对象」

对象典型落点在公开材料中的显式落笔
FFN 算力MoE、路由、负载均衡、专家专门化MoE 专文(2401.06066);V3 auxiliary-loss-free 负载均衡(2412.19437);ESFT 等只动子专家的微调线(2407.01906)
KV / 注意力的访存与长度MLA;原生/DSA 等稀疏注意;V4 侧混合注意与块结构V2 摘要中的 MLA(2405.04434);NSA、V3.2 摘要中的 DSA 等(2502.11089、2512.02556);V4 以技术报告与 deepseek-v4 下解读为准
训练目标CE、MTP、续训、任务/数据倾斜V3 摘要中的 MTP(2412.19437);Coder-V2 自 V2 中检查点再训等(2406.11931);V3.2 摘要中 Agent 向数据合成 等表述(2512.02556)
推理与后训练纯 RL、奖励与推理时扩展、蒸馏到小模型R1(2501.12948);推理时扩展与通用奖励(2504.02495);V3.2 摘要中 可扩展 RL 等(2512.02556)
总拥有成本GPU hours、吞吐/显存比、训练稳定性V2、V3 摘要中的 H800 小时、费效与吞吐/缓存比例(跨任务混比须回到原文条件)
多线任务与形态代码、数学、证明、多模、版式与 OCR(评测与数据形态不同于「纯聊天」)Coder / Math / Prover、VL·Janus、OCR 各系专文(见第三节年表与第一节领域图)
系统与机架费效集群、网络、带宽、Agent 侧推理/存储Fire-Flyer AI-HPC(2408.14158);V3 规模与硬件反思(2505.09343);DualPath 等(2602.21548)

三、时间轴上的论文清单

3.1 约 2024:把「能训大、能省、多线并行」立起来

arXiv题目一句话角色
2401.02954DeepSeek LLM(开源与长期主义训练叙事)讲清开源 7B/67B 基座与分阶段、长程训练配置,为后续主线打底。
2401.06066DeepSeekMoE(专家怎样更「专」)用细粒度专家 + 共享专家等设计,把「省算又够专」的 MoE 讲透。
2401.14196DeepSeek-Coder把代码补全/生成从通用聊天里单拉成线,做编程向专用大模型。
2402.03300DeepSeek-Math以数学/推理数据为轴做能力拉升,对竞赛、思维链类任务可核对。
2403.05525DeepSeek-VL多模态对齐,让同一会话里能读图、能图文混说。
2405.04434DeepSeek-V2(含 MLA 等,主线里程碑)主线大版本:在 MoE/MLA 等上把显存、吞吐与可训性再压一截。
2405.14333DeepSeek-Prover接形式化/定理证明任务,让模型在证明数据与过程上成一条链。
2406.11931DeepSeek-Coder-V2代码线二代:在规模与多语言上把「写程序」这条线做深。
2407.01906ESFT(稀疏大模型上「专家化微调」)在超大 MoE 上只动相关专家,省算、省动参的微调路。
2408.08152DeepSeek-Prover-V1.5证明器 1.5:在数据与过程上迭代一版,抬证明侧上限。
2408.14158Fire-Flyer AI-HPC(软件硬件协同、训练费效)从软件栈到网络/带宽,讲「同规模集群怎么更满、更省钱」的训推工程。
2408.15664MoE 无辅助损负载均衡(常和 V3 叙事一起被引用)去掉部分辅助损也能稳住各专家活忙比例,为大规模 MoE 清路障。
2410.13848Janus(多模统一)统一框架里做理解与生成,把多模从「能接两模」推向一体设计。
2411.07975JanusFlow把自回归与 flow 等生成侧思路并到 Janus 系里,做生成质量与可控性。
2412.10302DeepSeek-VL2多模理解第二代:更高分辨率/多图等,把「看图说话」的底座做厚。
2412.19437DeepSeek-V3 技术报告整包摊开:从架构、数据、后训练到评测与算力表,可作 V3 的权威信源。

3.2 约 2025:推理(R1)、稀疏、OCR、数学二代、V3.2 与周边

arXiv题目(简)一句话角色
2501.12948DeepSeek-R1(强化学习推推理能力)用可验证/可学习奖励做 RL,把可复现的「长思考链」推理路线写清楚。
2501.17811Janus-Pro多模 Janus 系增强款:在理解与生成上偏实战规模的一体化。
2502.11089Native Sparse Attention(硬件友好的稀疏注意)原生稀疏注意:在更长序列上省算、尽量不伤精度,偏硬件可落地。
2504.02495推理时扩展与通用奖励建模把「多算一步」的推理时扩展和通用奖励设计绑在一篇里。
2504.21801DeepSeek-Prover-V2证明 V2:更大模型/更大证明面,和形式化数据管线一起前推。
2505.09343对 V3 的规模与硬件反思以 V3 为案例做规模、带宽、机架与成本的「事后可核对」复盘。
2510.18234DeepSeek-OCR把长版式/长 PDF 当可压缩视觉流做 OCR+理解,走文档向底座。
2511.22570DeepSeekMath-V2数学向第二代:在基座与数据上继续把竞赛/证明类能力抬一档。
2512.02556DeepSeek-V3.2(含稀疏注意 DSA 等,摘要里与业界强模型对比)主线在 V3 上的小步进:把 DSA 等与公开对照、摘要数字写进同文。
2512.24880mHC(超连接/残差流改进向)超连接一类结构改进,给深层/宽连接多一种可训配方。
2601.07372条件记忆与可扩展查找(稀疏另一轴)条件记忆 + 可扩展查表:在固定算力下多塞一段「能触发」的长记忆。

3.3 约 2026:OCR 续篇、Agent 与推理工程,V4

arXiv题目(简)一句话角色
2601.20552DeepSeek-OCR 2(Visual Causal Flow)OCR 续篇,用「视觉因果流」等加强版面/阅读顺序与长文档可解析性。
2602.21548DualPath(Agent 场景下推理与存储带宽)Agent 侧系统向:在推理算力与存储/带宽上协同省成本、撑并发。
DeepSeek-V4(Towards Highly Efficient Million-Token Context Intelligence)技术报告体:把百万级上下文、高效注意力/工程堆叠等写成可引用的主叙事。

可核对:引文与数据以各篇 arXiv 与 PDF 原文为准;V4 以官方技术报告与 Hugging Face deepseek-v4 合集 发布为准。