一、写在前面:V3到V4,这一年发生了什么?
距离DeepSeek-V3的发布已经过去整整一年。2025年5月,V3凭借“混合专家模型”架构和极高的性价比,在国内AI市场中站稳了脚跟,成为许多普通用户和中小企业的首选。
这一年间,国内大模型赛道发生了巨大变化:文心一言、通义千问、讯飞星火、腾讯混元、智谱清言……几乎所有玩家都完成了至少两次重大版本迭代。与此同时,AI应用场景从“尝鲜”走向“刚需”,用户对模型的要求也从“能不能回答”升级到了“回答得准不准、快不快、省不省”。
在这样的背景下,DeepSeek-V4的发布备受关注。它没有像某些友商那样大肆宣传“超越GPT”,而是选择了一条更务实的路线——在长文本、推理能力、多模态、成本控制四个方向做深做透。
二、V4最值得关注的五大核心升级
根据深度求索官方技术博客和首批内测用户的反馈,以下是V4相比V3最显著的五个变化:
1. 上下文长度:从128K到1M,一次真正的“跨越”
V3的能力:128K token上下文,大约相当于一本《三体:黑暗森林》的篇幅。对于日常对话、文档摘要、代码生成已经足够,但在处理超长文档(比如上市公司年报、学术论文合集、整本教材)时,需要手动切分。
V4的升级:上下文窗口扩展至1M token(约75万-100万个汉字)。这是什么概念?《红楼梦》前80回约61万字,V4可以一次性读完并回答关于任意细节的问题。
真实使用场景:你可以把一整年的微信聊天记录导出后直接丢给V4,问“我和客户张总聊过几次关于价格的事?最后达成了什么共识?”;或者把一本大学教材的PDF直接上传,问“第三章和第五章关于这个概念的表述有什么不一致?”
值得注意的细节:V4并没有在所有场景下都跑满1M。官方在技术博客中坦诚说明:当上下文超过500K时,首字响应时间会增加约2秒,且准确率会有约3%的下降。但对于绝大多数用户而言,这个“超长上下文”功能已经够用。
2. 推理能力:不再是“感觉对”,而是“能算对”
V3的短板:V3在逻辑推理、数学计算、多步推理类任务上表现中规中矩。能解决初中数学题,但高中竞赛题经常出错;能看懂三段论,但遇到“嵌套条件”时容易乱。
V4的升级:根据官方公布的基准测试,V4在中文逻辑推理数据集C-Eval上得分89.7分(V3为78.3分),在数学竞赛类数据集上的表现提升了约40%。
我在内测中用了几道经典“陷阱题”测试:
- 问:“小明有3个苹果,小红给了他一半的苹果,小明现在有几个?”(V3曾答错过)
- V4回答:“小明原有3个苹果,小红给了他‘一半’——这里需要明确是小红自己苹果的一半还是小明原有的一半。按常理理解为小红将自己拥有苹果的一半给了小明,但题目没有给出小红原有的苹果数,因此无法计算。如果指小明原有苹果的一半,则3+1.5=4.5个。请补充小红原有的苹果数。”
这个回答虽然不是“正确答案”(通常这类题的陷阱就是让学生默认小红也有3个),但它展示了V4的一个关键变化:不强行给答案,而是先指出歧义。这是推理能力提升的直接体现。
3. 多模态能力:从“能读图”到“能看图说话”
V3的能力:V3本身是纯文本模型,读取图片需要借助OCR(光学字符识别)技术,无法理解图像中物体的空间关系、颜色、情感等非文字信息。
V4的升级:V4原生支持图像输入与理解。你可以上传一张照片(比如一张杂乱的办公桌),问“这张照片里的桌面有哪些物品?按从左到右的顺序说。”V4会准确识别出“笔记本、水杯、便签纸、充电线……”,甚至能识别出“便签纸上写着‘周三开会’”。
更实用的场景:拍一张看不懂的药品说明书,问“这个药每天吃几次,饭前还是饭后?”;拍一张表格截图(非文本格式),问“第三行第二列是什么数据?”;拍一张路牌,问“从这个路口到最近的加油站的步行路线怎么走?”
值得注意:V4目前不支持图像生成(那是多模态输出的范畴,不在本次更新范围内)。它只能“看”不能“画”。图像分辨率支持最高4K,但超过1080P的大图会自动压缩,可能丢失极小的文字细节。
4. 效率与成本:推理速度翻倍,价格下降30%
V3的表现:V3以“高性价比”著称,API调用价格远低于同期友商。但在高并发场景下(比如同时有上千个用户提问),响应速度会明显变慢。
V4的升级:深度求索在技术博客中透露,V4采用了新的稀疏注意力机制和量化压缩技术,推理速度相比V3提升约2.1倍,同时将API调用价格下调了约30%。
具体来说:
- V4的API输入价格降至0.8元/百万token(V3为1.2元)
- 输出价格降至2.4元/百万token(V3为3.5元)
- 免费版用户的使用额度也从每天的50次对话提升到了100次
这对中小企业开发者来说是个好消息:一个每天调用10万次API的中型应用,每月成本可以从约3600元降至约2500元。
但要注意:免费版用户依然需要排队(高峰期响应稍慢),且不支持超长上下文(免费版最大上下文为128K)。想要流畅体验1M上下文和高速响应,仍需付费订阅(月费49元,年费399元)。
5. “记忆”功能的首次引入:AI终于“长记性”了
V3的局限:V3每次对话都是“失忆”的。你告诉它“我姓王,是程序员”,下一次新开对话,它又忘了。
V4的升级:V4引入了一项名为 “用户记忆” 的可选功能。开启后,AI会在你的授权下,记住你在对话中透露的个人信息、偏好和习惯。
使用场景:
- 第一次对话:“我喜欢用通俗易懂的例子,讨厌学术黑话。”
- 以后再问任何问题,V4都会自动调整回答风格,用大白话解释。
- 或者:“我住在北京朝阳区,孩子在读小学三年级。”
- 之后问“今天天气适合户外活动吗?”V4会结合朝阳区的天气和孩子放学的具体时间给出建议。
隐私安全机制:
- 记忆功能默认关闭,需要用户在设置里手动开启
- 用户可以随时查看、编辑、删除AI记住的任何一条信息
- 可以设置“临时对话”模式,不保存任何记忆
- 所有记忆数据本地加密存储,不上传云端(但联网搜索时仍需注意隐私)
这个功能虽然国外同类产品已有先例,但在国产大模型中是DeepSeek首次推出。它标志着AI从“每句话都像第一次见面”的工具,向“越来越懂你”的伙伴迈出了一步。
三、V4没有解决的问题:三个“依然存在”的短板
诚实地说,V4并不是完美的。以下三点与V3相比没有明显改善:
1. 实时信息获取仍依赖联网搜索
V4的知识截止日期是2026年4月。对于2026年5月以后的新事件(比如今天的新闻),V4的回答依然是“根据我截至2026年4月的知识……”除非你手动开启联网搜索功能。联网搜索支持百度百科、新浪新闻等官方合作渠道,但无法搜索微信公众号、知乎等封闭平台的内容。
2. 长文本的“幻觉”问题没有根治
虽然1M上下文令人兴奋,但官方测试显示:当文档长度超过500K时,模型在处理“文档中后部细节”时仍有约5%-8%的错误率(包括遗漏信息、张冠李戴)。深度求索建议:对于重要文档的精确检索,最好配合人工核对。
3. 情感理解依然“像AI”
V4能识别愤怒、悲伤、高兴等基本情绪,但在复杂情感(比如“讽刺”、“无奈”、“期待又怕受伤害”)上依然显得笨拙。如果你和它倾诉心事,它会给出“标准化的安慰”(“听起来你很难过,需要我帮你分析一下原因吗?”),而不是真正“懂你”的回应。这不是技术问题,而是AI的本质局限。
四、升级建议:你现在应该升级到V4吗?
如果你是目前V3的普通用户(免费版) :强烈建议升级。V4免费版每天100次对话,足够日常使用,而且推理更快、理解更准。直接在应用商店更新App即可,无需额外操作。
如果你是V3的付费用户:值得升级。49元/月的定价与V3持平,但功能大幅增强,尤其是1M上下文和图像理解,能显著提升工作效率。
如果你是开发者/企业用户:建议分阶段迁移。V4的API与V3完全兼容,只需修改一行代码中的版本号即可切换。但建议先在非核心业务上测试V4的准确率和延迟,确认符合要求后再全面迁移。
如果你是重度隐私敏感用户:按需决定。如果你不需要记忆功能,也从不处理超长文档,V3其实已经够用。V4不是“必选项”。
五、写在最后:DeepSeek的“务实哲学”
回顾DeepSeek-V4的整个更新列表,你会发现一个鲜明的特点:几乎没有“噱头功能” 。
没有“AI代理自主完成任务”的宏大叙事,没有“情绪价值伴侣”的煽情营销,没有“超越人类专家”的惊人宣称。V4做的所有事情——加长上下文、提升推理、引入多模态、降低价格、增加记忆——每一样都是用户在日常使用中真实喊过“要是有这个功能就好了”的痛点。
这种务实,在2026年越来越浮躁的大模型赛道中,反而成了一种稀缺品。
当然,V4不是终点。深度求索在技术博客的末尾透露:V5已经在研发中,预计2026年底或2027年初发布,重点突破方向是“真正的多模态”——同时理解图像、音频、视频和文本,以及更强的逻辑规划能力。
但在那之前,V4是你可以立刻用上的、实实在在的进步。