一、导语
4月24日,在DeepSeek-V4发布之后,我第一时间的反应并不是“又一个大模型来了”。
说实话,现在大模型的发布节奏实在是太密集了。今天就会推出一个新版本,明天又会放出一个新榜单,到了后天还会有人喊出“重新定义AI”这样的口号。要是只看这些标题的话,人是很容易产生麻木的感觉的。
但这次的DeepSeek-V4,其实是有一些不一样的。
我反复查看了几遍公开资料之后,觉得它最值得探讨的并不是“有没有超过GPT”,也不是“参数到底有多大”。这些内容当然十分重要,但并不是核心主线。
我更在意的是这两件事:
第一,百万上下文正在从高端功能变成基础能力。
以前,长上下文就像豪华配置,能够使用但成本较高,速度较慢,并且还对使用场景有所挑剔。DeepSeek-V4试图将它打造成为日常可用的能力。
第二,国产算力在大模型推理侧出现了更清晰的存在感。
国产算力在大模型推理侧出现了更清晰的存在感。这里说得谨慎一点:目前公开信息能确认的是推理适配和部署验证,并非训练全流程的替代。这个边界必须说清楚。
如果只用一句话来概括这次发布的话,我会这样来表述:
DeepSeek-V4并不是一次单纯的模型升级,它更像是在回应一个现实当中的问题:当算力变得越来越贵的时候,模型还能不能依靠架构创新来继续降低成本?
二、这次真正的看点,并不是“又变大了”
公开资料显示,DeepSeek-V4运用了MoE架构,也就是混合专家模型。简单来说,它不会每次都把所有参数全部调用出来开展工作,而是根据任务的具体内容,只激活其中的一部分专家。 这个思路算不上新颖,但DeepSeek一直很善于把它做得更为节省。 依据公开的技术资料来看,V4-Pro的总参数规模达到了万亿级,不过每次推理过程当中实际激活的参数要远小于总参数。这样的设计具备一个十分直接的好处:模型能够保留更大的知识容量,同时还可以控制每次调用所产生的计算成本。 这一点是相当关键的。
因为大模型行业现在已经进入一个相当现实的阶段。大家不再只询问“聪不聪明”,还会进一步询问:
- 能不能稳定上线?
- 每百万token多少钱?
- 长文档能不能跑得动?
- 企业批量调用会不会烧穿预算?
- 能不能在不同芯片上部署?
我自己在开展内容和工具测试的工作时,感受特别明显。早两年的时候,大家聊起模型,几乎都把注意力盯在排行榜上面。现在可就不一样了。不少开发者开口的第一句话就是:“这个模型便宜吗?延迟怎么样?API稳不稳?” 这并不是大家不关心智能了,而是大家开始去算账了。
二、百万上下文:并非噱头,其关键在于“算不算得起”
DeepSeek-V4最容易被普通读者感知到的能力,就是百万token的上下文。 100万token大概是什么概念?你可以粗略地去理解为,模型一次能够读进去一本很厚的书,甚至是一整个代码仓库当中的一部分内容。这个比喻并不是完全严谨的,但足够去说明相关的问题。 不过,长上下文一直存在着一个由来已久的老毛病: 可以把它塞进去,但不代表可以便宜地去处理它。
传统注意力机制存在一个明显的压力:也就是当文本越长的时候,计算量的增长速度也就越快。当文本长度翻倍时,计算开销往往不是简单地跟着翻倍,而是会以更快的速度上升。到了百万token这个级别,相关的成本以及显存压力都会变得非常吓人。
DeepSeek-V4的思路并不是硬扛,而是分层阅读:
第一步:先看目录和章节摘要。
模型要先抓住整体的结构,不要一上来就逐字逐句地死磕。
第二步:带着问题去找重点段落。
模型会挑选出跟当前问题更加相关的内容,以此来减少无效计算的工作。
第三步:对最近的内容保留细节。
因为在生成答案的时候,离当前问题最近的上下文往往是最为重要的。
可以写成一个更直观的流程:
长文本输入
↓
全局压缩:保留整体脉络
↓
相关内容筛选:找到最可能有用的片段
↓
局部窗口精读:保住当前任务的细节
↓
融合信息并生成回答
这套机制的核心价值并不是“听起来高级”,而是它会直接对成本产生影响。 依据DeepSeek公开的技术资料来看,在百万上下文的场景当中,V4相较于前代的模型,显著降低了推理的计算量以及KV缓存的占用情况。具体的数值要以官方发布的技术报告为准。 这具体代表着什么呢? 意味着长文档分析、代码仓库问答以及多轮Agent任务这类功能,以后可能不再是只有少数高预算用户才能使用的内容了。 我认为这才是V4最具备实际意义的所在之处。 它并没有把百万上下文包装成一个“炫技按钮”,而是尝试把它转变成模型的底层能力。
【图片来源】Unsplash - Alexandre Debiève,免费可商用
三、不要夸大:昇腾适配目前主要看推理侧
这里必须把话说清楚。 很多文章会把DeepSeek-V4和华为昇腾放在一起来讲,随后很容易就会写出“DeepSeek已经完全摆脱某某生态”或者“训练全流程实现国产化”这样的内容。 这种写法具备较强的冲击力,但不够严谨。 从目前公开的信息来看,比较稳妥的表述应当是: DeepSeek-V4在推理部署方面验证了包括华为昇腾在内的多种硬件平台的适配工作。至于训练阶段所使用的硬件,公开资料当中没有给出足够明确的相关信息。 这个边界是十分重要的。 推理和训练并不是一回事。 训练就像是建一座大楼。 推理则像是让这座大楼每天去接待用户。 训练阶段需要运用巨量算力,以及长时间稳定的集群,还有复杂的通信以及工程调度工作。推理阶段则更关注吞吐、延迟、成本和部署的稳定性。 所以,V4对昇腾的意义,我会这么判断: 它并非证明国产算力已经全面替代主流GPU生态。它更准确地证明了这样一件事:在大模型推理侧,国产算力开始进入主流模型的真实适配链路当中。
这句话没有那么燃,不过更贴近事实。
四、技术生态正在变得更多元化
过去很长一段时间,大模型的开发以及部署都有一个默认的路径:
模型先在主流GPU生态上跑通
↓
开发者围绕这个生态做优化
↓
工具链、算子库、工程经验继续沉淀
↓
新的模型又优先适配这个生态
这个循环一旦形成,就会变得越来越强。 DeepSeek-V4所传递出的新信号是:主流开源模型不再仅仅围绕单一硬件生态来展开部署方面的想象。它开始把更多的芯片平台纳入到推理适配的范围当中。
这对于开发者而言是很现实的情况。 要是一个模型只能在某一种硬件上高效运行,那么企业就不会有太多的选择。要是一个模型可以在多种硬件上稳定完成部署,企业就能够依据价格、供应、性能以及合规要求来进行取舍。
这并非简单的“谁替代谁”的情况,更像是技术生态从单一路径,逐步走向多路径的发展过程。
我个人觉得,这样的变化会比一次跑分的胜负结果更为重要。 就目前的情况来看,跑分方面今天你这边会高一点,明天我这边则会高一点。但等到生态一旦变宽之后,开发者们的选择就真的会变多了。
五、价格才是V4最具备现实意义的杀伤力
要是你只是普通用户,或许会产生这样的疑问:这些架构、芯片以及推理适配,和你本身究竟有什么关联呢?
二者之间的关系很直接,也就是价格。
结合DeepSeek官方API定价页面以及第三方测评平台的公开数据来看,V4系列的调用价格明显要低于多款海外闭源模型。不同平台所展示的口径或许存在差异,实际的价格应当以DeepSeek官方API文档作为依据。
为了适配多个内容平台,我不用复杂表格,直接写成列表:
- DeepSeek-V4-Flash:主打低成本、高吞吐场景;
- DeepSeek-V4-Pro:主打更强推理和复杂任务;
- 海外高端闭源模型:通常价格更高,但在部分复杂任务、多模态能力和稳定性上仍有优势。
这不是“便宜就一定赢”。
企业选模型不会只看单价。它还会看输出质量、平均token消耗、稳定性、延迟、上下文长度、是否支持私有化部署。
但价格低到一定程度后,事情会变。
以前一个团队可能只敢把AI用在客服摘要、文案润色这种轻任务上。
现在,如果模型调用成本继续下降,AI就有机会进入更多重任务场景:
- 扫描大型代码仓库;
- 分析几百页合同;
- 处理企业内部知识库;
- 做长链路Agent自动化;
- 给中小团队提供低成本AI助手。
我对V4的判断也在这里:
它未必是最强模型,但它可能是最有价格压力的模型之一。
这类模型会逼整个行业重新算账。
六、不过V4并不是完美的答案
写到这里,我需要泼一盆冷水。 DeepSeek-V4存在亮点,但它并不是万能的模型。现在将它吹成“全面碾压”的说法,我认为是不负责任的。
1. 幻觉问题仍然需要重视
有不少第三方测评都提到,推理模型在面对不确定的问题时,依然有可能生成看起来合理但实际上错误的答案。具体的幻觉率会因为测试集、评估方法以及模型版本的不同而产生变化,相关情况应当以测评机构的原始报告作为依据。
这对于医疗、法律、金融以及科研这类场景来说尤其重要。 在这些领域当中,模型不能只是说得像真的。它必须能够给出可靠的来源,必须能够承认自己不知道,同时还要能够被审计。
这样一来,V4可以被用于辅助开展分析工作,不过它不应当直接去替代专业层面的判断。
2. 多模态能力不是这次重点
从目前公开的信息来看,V4主要是围绕文本、推理、长上下文以及Agent能力来开展相关工作的。对比部分已经对图像、音频、视频能力进行强化的模型,V4在多模态方面并不是这次发布的重点内容。
这算不上致命缺点,但它体现出DeepSeek这次选择了聚焦方向。 它并没有试图去做到所有的事情。它把主要的精力放在了长上下文、推理效率、部署成本以及开源生态这几个方面上。 这样的选择具备合理性,但用户也需要清楚知晓其中的边界所在。
3. 单价便宜,不代表总成本一定低
这里有个容易被忽略的坑。 模型单价比较低,但要是它回答的内容特别长、任务拆分得特别多、Agent调用链特别复杂的话,总token消耗仍然可能会很高。
对企业来说,真正需要去关注的并不是“每百万token多少钱”,而是: 要完成这个真实任务,到底需要花费多少钱呢?不对,不能有“呢”,重新调整:开展这样一个真实任务,到底需要花费多少钱。
要是修复一个GitHub issue的话,模型可能就要去读取代码、搜索相关文件、生成补丁、运行测试,还要反复进行修改。这样的过程会消耗不少的token。 那么,评估V4不能只看它的标价。要把自己的业务任务拿去跑一遍。 这句话看起来朴素,但实际上非常实用。
七、我真正所看重的,是“工程路线”这一内容。
要是只去看模型的发布会,那么AI行业就很容易变成一场语言游戏。 不管是谁,都可以说自己的实力更强。不管是谁,都可以说自己重新定义了未来的走向。不管是谁,都可以拿出几张看起来很漂亮的榜单截图来展示。
可事情并不是这么简单的。 该工程需要面对预算、芯片、延迟、故障、并发、内存、上下文、部署环境,以及用户每天真实发送过来的各类奇怪问题。
DeepSeek-V4有意思的地方在于,它并没有只在“更大模型”这条路上猛踩油门,而是在做另一件更难但更实用的事: 让模型变得更便于开展部署工作,更能承受高并发的场景,更能去处理长文本的相关工作,同时整体的使用成本也更低。 这条路线并没有那么浪漫,不过它却很扎实。 我甚至觉得,这也就是AI接下来两三年真正的主线。
不是每个月都会诞生一个“最强大脑”。而是模型的能力会逐渐变成像水、电以及云服务器一样的基础设施。 当调用成本降下来,长上下文稳定下来,硬件选择变多的时候,AI才会真正进入更多普通公司以及普通产品当中。
八、给开发者以及企业的三个相关建议
如果你是开发者,我建议你不要只看社交媒体上的结论。你可以自己做三个测试。
第一,用自己的长文档测。
不要只向模型询问几个脑筋急转弯类的问题。你可以把一份真实的产品文档、一段大型代码以及一组内部知识库内容都丢给它,看它能不能稳定地找到其中的重点。
第二,用真实业务算成本。
不要只去看官方的token单价。你应该去计算一次完整任务的总token、总耗时、失败率以及重试成本。
第三,看部署路径。
要是你所在的公司对于数据安全、私有化部署或者国产算力有着相关要求,那么V4的多硬件适配是值得去跟进的。不过你也需要确认一下框架、算子、驱动以及运维团队是不是已经做好了准备。
这三点比任何榜单都更贴近真实世界当中的实际情况。
九、最后来说一下:V4的意义,并不是“打败谁”。
我不太喜欢把每次模型发布都写成是谁打败了谁的形式。 这种写法看起来很热闹,但很快就会过时。 DeepSeek-V4更值得关注的地方,是它把几个长期存在的问题摆到了一起:
- 长上下文怎么降成本;
- 大模型怎么更好部署;
- 推理侧能不能支持更多硬件;
- 开源模型能不能继续给闭源模型制造价格压力;
- 企业能不能用更低预算接入强模型能力。
这些问题没有一个是容易的。 所以我不会说V4已经改变了一切。我更愿意说,它给出了一个相当清晰的方向: 下一阶段的大模型竞争,不只是比谁更聪明,同时也要比谁更便宜、更稳定、更容易部署,以及更适宜真实业务的开展。
要是这个方向得以成立,那么DeepSeek-V4的价值就不只是一款模型。 它更像是一个信号。 一个提醒行业回归现实世界的信号。
本文使用AI辅助整理资料,核心观点与判断由作者本人做出。文中涉及的技术参数与定价信息来源于DeepSeek官方技术报告及API定价页面,建议以官方最新数据为准。