DeepSeek-V3.1来了!

298 阅读5分钟

📚 DeepSeek系列文章

一文了解 DeepSeek 系列模型的演进与创新

一文搞懂DeepSeek LLM

DeepSeekMoE 架构解析

DeepSeek-V2 架构解读

DeepSeek-V3 架构解析

DeepSeek-R1 架构解析:如何通过强化学习激发大模型的推理能力?

大家可以带着以下三个问题阅读本文:

1.DeepSeek V3.1 的“Think/Non-Think”模式解决了什么实际问题?

2.DeepSeek V3.1 在硬件适配方面有哪些突破?

3.DeepSeek V3.1 的开源和 API 更新对开发者意味着什么?

所有相关源码示例、流程图、模型配置与知识库构建技巧,我也将持续更新在Github:LLMHub,欢迎关注收藏!

1.引言

2025年8月21日,DeepSeekV3.1发布,引起了很大的轰动,随后8月22日半导体与人工智能相关板块大涨,当然这两个之间我也不知道有没有关系,之所以叫DeepSeekV3.1,不叫DeepSeekV4,是因为是在DeepSeekV3的基础上进行了改进,变革程度还没有能够达到下一个版本的程度,下面我们就来看看DeepSeekV3.1相对于DeppSeek V3在哪些地方做了那些改进吧。

由于太过火爆,最近打开DeepSeekV3.1的界面都是拒绝连接的状态。

2.主要技术亮点

据官方介绍,本次升级主要包含以下变化:

  • 混合推理架构:一个模型同时支持思考模式与非思考模式;
  • 更高的思考效率:相比 DeepSeek-R1-0528,DeepSeek-V3.1-Think 能在更短时间内给出答案;
  • 更强的 Agent 能力:通过 Post-Training 优化,新模型在工具使用与智能体任务中的表现有较大提升。

V3.1的 Base 模型在 V3 的基础上重新做了外扩训练,一共增加训练了 840B tokens。Base 模型与后训练模型均已在 Huggingface 与魔搭开源。需要注意的是,DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的参数精度,这个UE8M0是我们中国本土的精度格式,这一操作优化了内存与速度,提升了在国产硬件上的运行效率。另外,V3.1 对分词器及 chat template 进行了较大调整,与 DeepSeek-V3 存在明显差异。

在代码修复测评 SWE 与命令行终端环境下的复杂任务(Terminal-Bench)测试中,DeepSeek-V3.1 相比之前的 DeepSeek 系列模型有明显提高。

DeepSeek-V3.1 在多项搜索评测指标上取得了较大提升。在需要多步推理的复杂搜索测试(browsecomp)与多学科专家级难题测试(HLE)上,DeepSeek-V3.1 性能已大幅领先 R1-0528。

3.生态动向与行业影响

3.1 半导体市场回暖信号

DeepSeek 表态支持国产芯片立即刺激半导体和人工智能板块上涨,Cambricon 股价暴涨 20%,市值突破 5000 亿元人民币。

3.2 与 ChatGPT-5 对标

一篇对比文章指出,在逻辑推理、项目规划、数学、家庭经济等结构化任务中,DeepSeek 表现更实用、更具条理。GPT-5 则在人性化表达与叙述方面更具优势,两者各有所长。

3.3 国家与产业生态格局

DeepSeek-V3.1 的国产芯片适配进一步凸显中国 AI 自主路径的战略价值。百度等巨头通过开源策略加速生态布局,与 DeepSeek 等新锐形成竞争与协同格局。

4.总结

DeepSeek的这一次迭代,强化了国产芯片适配强化的技术自主性,也刺激了中国人工智能市场的信心,就让我们期待一下DeepSeek的下一次冲锋吧!!!

最后我们来回答一下文章开头提出的三个问题:

1.DeepSeek V3.1 的“Think/Non-Think”模式解决了什么实际问题?

传统大模型在面对不同任务时难以同时兼顾 速度推理深度:复杂任务需要链式推理(CoT),但这会显著增加延迟与成本;而普通问答则不需要冗余的推理步骤。DeepSeek V3.1 通过引入 “Think” 与 “Non-Think” 模式,使用户无需手动切换模式,在逻辑复杂的任务中获得更准确、更结构化的答案,在日常场景中享受更快、更经济的响应。这种混合推理模式有效提升了模型的 灵活性与实用性

2.DeepSeek V3.1 在硬件适配方面有哪些突破?

V3.1 针对中国本土 AI 芯片进行了优化,尤其支持 FP8 精度中的 UE8M0 格式,使其在国产硬件上运行更高效。这不仅提升了模型在 推理速度、内存利用率 上的表现,还强化了中国 AI 技术自主可控的战略优势。对于依赖国产算力生态的企业与科研机构来说,这意味着 更低的硬件门槛更广的应用可能

3.DeepSeek V3.1 的开源和 API 更新对开发者意味着什么?

DeepSeek V3.1 的基础模型已在 Hugging Face 和 ModelScope 全面开源,开发者可以自由下载、微调和私有化部署。同时,API 升级提供了 128K 长上下文、函数调用、Anthropic 格式兼容 等功能,使得开发者可以快速构建智能体(Agent)、工具链和复杂应用。这一策略不仅降低了创新门槛,也推动了整个 AI 生态的 开放与繁荣

关于深度学习和大模型相关的知识和前沿技术更新,请关注公众号coting!

参考链接

deepseekv3.org/zh-Hans/dee…