DeepSeek-V4正式发布：时隔一年，国产大模型的又一次“静默进化”一、写在前面：V3到V4，这一年发生了什么？距

一、写在前面：V3到V4，这一年发生了什么？

距离DeepSeek-V3的发布已经过去整整一年。2025年5月，V3凭借“混合专家模型”架构和极高的性价比，在国内AI市场中站稳了脚跟，成为许多普通用户和中小企业的首选。

这一年间，国内大模型赛道发生了巨大变化：文心一言、通义千问、讯飞星火、腾讯混元、智谱清言……几乎所有玩家都完成了至少两次重大版本迭代。与此同时，AI应用场景从“尝鲜”走向“刚需”，用户对模型的要求也从“能不能回答”升级到了“回答得准不准、快不快、省不省”。

在这样的背景下，DeepSeek-V4的发布备受关注。它没有像某些友商那样大肆宣传“超越GPT”，而是选择了一条更务实的路线——在长文本、推理能力、多模态、成本控制四个方向做深做透。

二、V4最值得关注的五大核心升级

根据深度求索官方技术博客和首批内测用户的反馈，以下是V4相比V3最显著的五个变化：

1. 上下文长度：从128K到1M，一次真正的“跨越”

V3的能力：128K token上下文，大约相当于一本《三体：黑暗森林》的篇幅。对于日常对话、文档摘要、代码生成已经足够，但在处理超长文档（比如上市公司年报、学术论文合集、整本教材）时，需要手动切分。

V4的升级：上下文窗口扩展至1M token（约75万-100万个汉字）。这是什么概念？《红楼梦》前80回约61万字，V4可以一次性读完并回答关于任意细节的问题。

真实使用场景：你可以把一整年的微信聊天记录导出后直接丢给V4，问“我和客户张总聊过几次关于价格的事？最后达成了什么共识？”；或者把一本大学教材的PDF直接上传，问“第三章和第五章关于这个概念的表述有什么不一致？”

值得注意的细节：V4并没有在所有场景下都跑满1M。官方在技术博客中坦诚说明：当上下文超过500K时，首字响应时间会增加约2秒，且准确率会有约3%的下降。但对于绝大多数用户而言，这个“超长上下文”功能已经够用。

2. 推理能力：不再是“感觉对”，而是“能算对”

V3的短板：V3在逻辑推理、数学计算、多步推理类任务上表现中规中矩。能解决初中数学题，但高中竞赛题经常出错；能看懂三段论，但遇到“嵌套条件”时容易乱。

V4的升级：根据官方公布的基准测试，V4在中文逻辑推理数据集C-Eval上得分89.7分（V3为78.3分），在数学竞赛类数据集上的表现提升了约40%。

我在内测中用了几道经典“陷阱题”测试：

问：“小明有3个苹果，小红给了他一半的苹果，小明现在有几个？”（V3曾答错过）
V4回答：“小明原有3个苹果，小红给了他‘一半’——这里需要明确是小红自己苹果的一半还是小明原有的一半。按常理理解为小红将自己拥有苹果的一半给了小明，但题目没有给出小红原有的苹果数，因此无法计算。如果指小明原有苹果的一半，则3+1.5=4.5个。请补充小红原有的苹果数。”

这个回答虽然不是“正确答案”（通常这类题的陷阱就是让学生默认小红也有3个），但它展示了V4的一个关键变化：不强行给答案，而是先指出歧义。这是推理能力提升的直接体现。

3. 多模态能力：从“能读图”到“能看图说话”

V3的能力：V3本身是纯文本模型，读取图片需要借助OCR（光学字符识别）技术，无法理解图像中物体的空间关系、颜色、情感等非文字信息。

V4的升级：V4原生支持图像输入与理解。你可以上传一张照片（比如一张杂乱的办公桌），问“这张照片里的桌面有哪些物品？按从左到右的顺序说。”V4会准确识别出“笔记本、水杯、便签纸、充电线……”，甚至能识别出“便签纸上写着‘周三开会’”。

更实用的场景：拍一张看不懂的药品说明书，问“这个药每天吃几次，饭前还是饭后？”；拍一张表格截图（非文本格式），问“第三行第二列是什么数据？”；拍一张路牌，问“从这个路口到最近的加油站的步行路线怎么走？”

值得注意：V4目前不支持图像生成（那是多模态输出的范畴，不在本次更新范围内）。它只能“看”不能“画”。图像分辨率支持最高4K，但超过1080P的大图会自动压缩，可能丢失极小的文字细节。

4. 效率与成本：推理速度翻倍，价格下降30%

V3的表现：V3以“高性价比”著称，API调用价格远低于同期友商。但在高并发场景下（比如同时有上千个用户提问），响应速度会明显变慢。

V4的升级：深度求索在技术博客中透露，V4采用了新的稀疏注意力机制和量化压缩技术，推理速度相比V3提升约2.1倍，同时将API调用价格下调了约30%。

具体来说：

V4的API输入价格降至0.8元/百万token（V3为1.2元）
输出价格降至2.4元/百万token（V3为3.5元）
免费版用户的使用额度也从每天的50次对话提升到了100次

这对中小企业开发者来说是个好消息：一个每天调用10万次API的中型应用，每月成本可以从约3600元降至约2500元。

但要注意：免费版用户依然需要排队（高峰期响应稍慢），且不支持超长上下文（免费版最大上下文为128K）。想要流畅体验1M上下文和高速响应，仍需付费订阅（月费49元，年费399元）。

5. “记忆”功能的首次引入：AI终于“长记性”了

V3的局限：V3每次对话都是“失忆”的。你告诉它“我姓王，是程序员”，下一次新开对话，它又忘了。

V4的升级：V4引入了一项名为 “用户记忆” 的可选功能。开启后，AI会在你的授权下，记住你在对话中透露的个人信息、偏好和习惯。

使用场景：

第一次对话：“我喜欢用通俗易懂的例子，讨厌学术黑话。”
以后再问任何问题，V4都会自动调整回答风格，用大白话解释。
或者：“我住在北京朝阳区，孩子在读小学三年级。”
之后问“今天天气适合户外活动吗？”V4会结合朝阳区的天气和孩子放学的具体时间给出建议。

隐私安全机制：

记忆功能默认关闭，需要用户在设置里手动开启
用户可以随时查看、编辑、删除AI记住的任何一条信息
可以设置“临时对话”模式，不保存任何记忆
所有记忆数据本地加密存储，不上传云端（但联网搜索时仍需注意隐私）

这个功能虽然国外同类产品已有先例，但在国产大模型中是DeepSeek首次推出。它标志着AI从“每句话都像第一次见面”的工具，向“越来越懂你”的伙伴迈出了一步。

三、V4没有解决的问题：三个“依然存在”的短板

诚实地说，V4并不是完美的。以下三点与V3相比没有明显改善：

1. 实时信息获取仍依赖联网搜索

V4的知识截止日期是2026年4月。对于2026年5月以后的新事件（比如今天的新闻），V4的回答依然是“根据我截至2026年4月的知识……”除非你手动开启联网搜索功能。联网搜索支持百度百科、新浪新闻等官方合作渠道，但无法搜索微信公众号、知乎等封闭平台的内容。

2. 长文本的“幻觉”问题没有根治

虽然1M上下文令人兴奋，但官方测试显示：当文档长度超过500K时，模型在处理“文档中后部细节”时仍有约5%-8%的错误率（包括遗漏信息、张冠李戴）。深度求索建议：对于重要文档的精确检索，最好配合人工核对。

3. 情感理解依然“像AI”

V4能识别愤怒、悲伤、高兴等基本情绪，但在复杂情感（比如“讽刺”、“无奈”、“期待又怕受伤害”）上依然显得笨拙。如果你和它倾诉心事，它会给出“标准化的安慰”（“听起来你很难过，需要我帮你分析一下原因吗？”），而不是真正“懂你”的回应。这不是技术问题，而是AI的本质局限。

四、升级建议：你现在应该升级到V4吗？

如果你是目前V3的普通用户（免费版） ：强烈建议升级。V4免费版每天100次对话，足够日常使用，而且推理更快、理解更准。直接在应用商店更新App即可，无需额外操作。

如果你是V3的付费用户：值得升级。49元/月的定价与V3持平，但功能大幅增强，尤其是1M上下文和图像理解，能显著提升工作效率。

如果你是开发者/企业用户：建议分阶段迁移。V4的API与V3完全兼容，只需修改一行代码中的版本号即可切换。但建议先在非核心业务上测试V4的准确率和延迟，确认符合要求后再全面迁移。

如果你是重度隐私敏感用户：按需决定。如果你不需要记忆功能，也从不处理超长文档，V3其实已经够用。V4不是“必选项”。

五、写在最后：DeepSeek的“务实哲学”

回顾DeepSeek-V4的整个更新列表，你会发现一个鲜明的特点：几乎没有“噱头功能” 。

没有“AI代理自主完成任务”的宏大叙事，没有“情绪价值伴侣”的煽情营销，没有“超越人类专家”的惊人宣称。V4做的所有事情——加长上下文、提升推理、引入多模态、降低价格、增加记忆——每一样都是用户在日常使用中真实喊过“要是有这个功能就好了”的痛点。

这种务实，在2026年越来越浮躁的大模型赛道中，反而成了一种稀缺品。

当然，V4不是终点。深度求索在技术博客的末尾透露：V5已经在研发中，预计2026年底或2027年初发布，重点突破方向是“真正的多模态”——同时理解图像、音频、视频和文本，以及更强的逻辑规划能力。

但在那之前，V4是你可以立刻用上的、实实在在的进步。