DeepSeek-V4模型架构与成本分析

0 阅读12分钟

DeepSeek-V4以约1/6成本实现接近顶尖水平的智能

Carl Franzen 发布
2026年4月24日,太平洋时间上午9:34
更新于 2026年4月24日,太平洋时间上午9:37

巨鲸再次浮出水面。 某中国AI初创公司(某量化分析机构的衍生公司)在2025年1月凭借其开源R1模型风靡全球,该模型性能可与某美国科技巨头闭源模型相媲美。

自那时起,AI领域经历了巨变。虽然该公司已发布了对R1及V3系列的多次更新,但国际AI界和商界一直在屏息等待"R1时刻"的续篇。

昨晚发布的DeepSeek-V4带来了这一时刻。这是一个1.6万亿参数的混合专家(MoE)模型,采用商业友好的开源MIT许可证免费提供。通过应用程序编程接口(API)调用时,其性能接近——在某些基准测试上甚至超越——全球最先进的闭源系统,而成本仅为其约1/6。

该模型的发布——被该公司AI研究员陈大力在X上描述为V3发布后484天的"热爱之作"——被誉为"第二个DeepSeek时刻"。正如陈在帖子中所言:"通用人工智能属于每个人"。该模型现已上线AI代码共享社区Hugging Face,并通过该公司的API提供服务。

前沿级AI被推入更低价格带

DeepSeek-V4发布最直接的影响是经济层面的。修正后的定价表显示,该公司的Pro新模型并非定价接近于零,但仍将高端模型的使用成本压至远低于某美国前沿模型的水平。

DeepSeek-V4-Pro通过API的定价为:缓存未命中时每百万输入token 1.74美元,每百万输出token 3.48美元。简单的一百万输入加一百万输出比较为5.22美元。使用缓存输入时,输入价格降至每百万token 0.145美元,同一混合比较降至3.625美元。

这远低于某机构和某机构当前的溢价定价。某模型5.5定价为每百万输入token 5.00美元、每百万输出token 30.00美元,同一简单比较合计35.00美元。某机构模型4.7定价为输入5.00美元、输出25.00美元,合计30.00美元。

(表格对比了多个模型的输入/输出/总成本,某中心Grok 4.1 Fast总成本0.70美元,某中心MiniMax M2.7为1.50美元,某中心Gemini 3 Flash为3.50美元,某中心Kimi-K2.5为3.60美元,某中心MiMo-V2-Pro为4.00美元,某中心GLM-5为4.20美元,某中心GLM-5-Turbo为5.20美元,某中心DeepSeek-V4-Pro为5.22美元,某中心GLM-5.1为5.80美元,某中心Claude Haiku 4.5为6.00美元,某中心Qwen3-Max为7.20美元,某中心Gemini 3 Pro为14.00美元,某中心GPT-5.2为15.75美元,某中心GPT-5.4为17.50美元,某中心Claude Sonnet 4.5为18.00美元,某机构Claude Opus 4.7为30.00美元,某机构GPT-5.5为35.00美元,某机构GPT-5.4 Pro为210.00美元)

在标准缓存未命中定价下,DeepSeek-V4-Pro的成本约为某模型5.5的七分之一,约为某机构模型4.7的六分之一(1/6)。使用缓存输入时,差距进一步扩大:DeepSeek-V4-Pro成本约为某模型5.5的十分之一,约为某机构模型4.7的八分之一。

更极致的近零定价属于DeepSeek-V4-Flash(非Pro模型)。Flash定价为缓存未命中时每百万输入token 0.14美元、每百万输出token 0.28美元,合计0.42美元。使用缓存输入时降至0.308美元。在此情况下,该公司的廉价模型在简单输入加输出比较中比某模型5.5和某机构模型4.7低98%以上,成本接近百分之一——尽管性能显著下降。

基准测试对比:DeepSeek-V4-Pro接近,但某模型5.5和某机构模型4.7在多数共享测试中仍领先

DeepSeek-V4-Pro-Max最好被理解为一个重大的开放权重跃升,而非对所有最新闭门前沿系统的全面击败。该模型最强的基准测试数据来自其自身对比表,在与某模型5.4 xHigh、某机构模型4.6 Max和某中心模型3.1 Pro High的对比中,它在Codeforces和Apex Shortlist等多项测试中胜出。但这并非与某机构更新的某模型5.5或某机构更新的某机构模型4.7的直接对比。

仅看DeepSeek-V4与最新闭源模型的对比,情况更为克制。在这组共享测试中,某模型5.5和某机构模型4.7仍在多数类别中领先。DeepSeek-V4-Pro-Max的最佳表现在BrowseComp(衡量代理型AI网页浏览能力的基准)上,得分83.4%,略低于某模型5.5的84.4%,高于某机构模型4.7的79.3%。在Terminal-Bench 2.0上,DeepSeek得分67.9%,接近某机构模型4.7的69.4%,但远低于某模型5.5的82.7%。

(基准测试表格:GPQA Diamond上DeepSeek-V4-Pro-Max 90.1%,某模型5.5 93.6%,某机构模型4.7 94.2%;Humanity's Last Exam无工具分别为37.7%、41.4%、46.9%;有工具分别为48.2%、52.2%、54.7%;Terminal-Bench 2.0分别为67.9%、82.7%、69.4%;SWE-Bench Pro分别为55.4%、58.6%、64.3%;BrowseComp分别为83.4%、84.4%、79.3%;MCP Atlas分别为73.6%、75.3%、79.1%。某机构模型4.7在多数项中最佳。)

共享的学术推理结果偏向闭源模型。在代理型和软件工程结果上,DeepSeek-V4-Pro-Max仍落后于某模型5.5和某机构模型4.7。BrowseComp是突出项:DeepSeek的83.4%击败了某机构模型4.7的79.3%,几乎追平某模型5.5的84.4%,尽管某模型5.5 Pro的90.1%仍遥遥领先。

最终,在可直接跨公司发布表格比较的基准上,DeepSeek-V4-Pro-Max似乎并未推翻某模型5.5或某机构模型4.7的地位。但它在多个基准上已足够接近——尤其是BrowseComp、Terminal-Bench 2.0和MCP Atlas——使其更低的API定价成为头条。

从DeepSeek V3.2的巨大飞跃

要理解此次发布的规模,必须看基础模型的性能提升。DeepSeek-V4-Pro-Base相比前代V3.2-Base有显著进步。在世界知识方面,V4-Pro-Base在MMLU(5-shot)上达到90.1,而V3.2为87.8;MMLU-Pro从65.5大幅跃升至73.5。高层次推理和验证事实的改进更为明显:SuperGPQA上V4-Pro-Base达到53.9(V3.2为45.0),FACTS Parametric基准上性能翻倍有余,从27.1跃至62.6。Simple-QA验证得分也从28.3大幅上升至55.2。

长上下文能力也得到了优化。LongBench-V2上,V4-Pro-Base得分51.5,远超V3.2-Base的40.2。代码和数学方面,V4-Pro-Base在HumanEval(Pass@1)上达到76.8,高于V3.2-Base的62.8。这些数字表明,该公司不仅优化了推理成本,还从根本上提升了基础架构的智能密度。

新的信息"流量控制器":流形约束超连接(mHC)

该公司提供上述价格和性能的能力,根植于同日发布的技术报告《迈向高效百万token上下文智能》中详述的革命性架构创新。V4的突出技术成就是原生百万token上下文窗口。历史上,维持如此大的上下文需要巨大的内存(键值或KV缓存)。该公司通过引入混合注意力架构解决了这一问题,该架构结合了压缩稀疏注意力(CSA)以减少初始token维度,以及重度压缩注意力(HCA)以激进压缩长距离依赖的内存占用。实际应用中,V4-Pro模型相比前代DeepSeek-V3.2,仅需10%的KV缓存和27%的单token推理FLOPs,即使在百万token上下文下运行也是如此。

为稳定1.6万亿参数的网络,该公司超越了传统的残差连接。研究人员引入了流形约束超连接(mHC),以增强跨层信号传播,同时保持模型的表达能力。mHC允许AI拥有更宽的信息流(从而学习更复杂的事物),而不会出现在训练过程中模型变得不稳定或"崩溃"的风险。

这搭配了Muon优化器,使得团队在超过32T多样化高质量token的预训练期间实现了更快的收敛和更高的训练稳定性。预训练数据经过精炼,去除了自动生成的内容,降低了模型崩溃的风险,并优先考虑独特的学术价值。该模型的1.6T参数采用混合专家(MoE)设计,每个token仅激活49B参数,进一步降低了计算需求。

训练混合专家(MoE)使其整体协同工作

DeepSeek-V4不仅仅是"被训练"出来的,而是通过独特的两阶段范式"培养"出来的。首先,通过独立专家培养,使用监督微调(SFT)和基于GRPO算法的强化学习(RL)训练领域特定专家。这使每个专家能够掌握专业技能,如数学推理或代码库分析。

其次,统一模型整合通过同策略蒸馏将这些不同的专长合并到一个单一模型中,其中统一模型作为学生,学习优化与教师模型的反向KL散度。这一蒸馏过程确保模型在整体协同运行的同时,保留每个专家的专门能力。

该模型的推理能力进一步细分为三种递增的"算力"模式:"非思考"模式为常规任务提供快速、直觉响应;"高思考"模式为复杂问题解决提供有意识的逻辑分析;"最大思考"模式则推动模型推理的边界,在复杂推理和代理任务上缩小与前沿模型的差距。这种灵活性允许用户将计算投入与任务难度匹配,进一步提升成本效益。

使用本地某中心NPU打破某厂商GPU垄断

虽然模型权重是头条,但随其发布的软件栈对未来"主权AI"而言可能更为重要。分析师Rui Ma指出发布稿中一个句子最为关键:该公司在某中心NPU(神经网络处理单元)上验证了其细粒度专家并行(EP)方案。通过在非某厂商GPU平台上实现1.50倍至1.73倍的加速,该公司为抵御西方GPU供应链和出口管制的高性能AI部署提供了蓝图。

然而需要注意的是,该公司声称除某中心NPU外,仍使用官方许可的合法某厂商GPU进行DeepSeek V4的训练。

该公司还开源了MegaMoE mega-kernel,作为其DeepGEMM库的一部分。这一基于CUDA的实现为延迟敏感型任务(如RL rollout和高速代理服务)提供高达1.96倍的加速。此举确保开发者能够在现有硬件上以极高效率运行这些大型模型,进一步巩固了该公司作为开源AI基础设施主要驱动者的角色。

许可与本地部署

DeepSeek-V4采用MIT许可证发布,这是行业内最宽松的框架。这允许开发者免版税地将权重用于商业目的的使用、复制、修改和分发——与其他公司偏爱的"受限"开放权重许可证形成鲜明对比。对于本地部署,该公司建议设置采样参数:temperature = 1.0,top_p = 1.0。对于使用"最大思考"推理模式的用户,建议将上下文窗口设置为至少384K token,以避免截断模型内部推理链。

此次发布包含一个专用编码文件夹,内附Python脚本,演示如何以兼容某机构的格式编码消息以及解析模型输出(包括推理内容)。DeepSeek-V4还与某机构Code、某中心和某中心等主流AI代理无缝集成。这种原生集成强调了其作为开发者工具基石的定位,为主要某机构专有生态系统提供了开源替代方案。

社区反响与未来展望

社区反响既震惊又认可。Hugging Face正式欢迎这头"巨鲸"回归,称高成本效益百万上下文长度时代已经到来。行业专家指出,"第二个DeepSeek时刻"实际上重置了整个领域的发展轨迹,给某机构和某机构等闭源提供商带来了巨大压力,迫使他们证明其溢价的合理性。AI评估公司Vals AI指出,DeepSeek-V4现在是"Vibe代码基准上排名第一的开放权重模型,且优势明显"。

该公司正迅速淘汰其旧架构。公司宣布,传统的deepseek-chat和deepseek-reasoner端点将于2026年7月24日完全退役。所有流量目前正被重定向至V4-Flash架构,标志着全面过渡到百万token标准。

DeepSeek-V4不仅仅是一个新模型;它是现状的挑战。通过证明架构创新可以替代原始算力最大化,该公司以远低于成本的价格让全球开发者社区能够接触到最高水平的AI智能——这可能会惠及全球,即使在华盛顿政策制定者对中国实验室从某机构闭源巨头"蒸馏"以训练开源模型表示担忧,以及担心开源或被越狱的闭源模型被用于制造武器和实施恐怖活动之时。

事实是,虽然这些都存在潜在风险——正如搜索和互联网本身等拓宽了信息获取渠道的先前技术一样——但收益似乎远远超过风险。该公司保持前沿AI模型开放的追求,对整个地球的潜在AI用户都是有益的,尤其是寻求以最低成本采用尖端技术的企业。FINISHED