深度求索在V3.2系列稳健迭代之后,于昨天祭出了全新一代的DeepSeek-V4系列预览版本,并按照其一贯风格同步开放了模型权重。此次发布按规模分为两个版本——参数量1.6T、激活49B的deepseek-v4-pro,以及参数量284B、激活13B的deepseek-v4-flash,两者均原生支持百万字超长上下文。官方对DeepSeek-V4系列的核心定位非常明确:通过混合稀疏注意力架构(CSA + HCA)显著降低长上下文的推理成本,在Agent能力、世界知识和推理性能上实现国内与开源领域的领先。本次我们先对其旗舰版本deepseek-v4-pro进行评测,测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。
deepseek-v4-pro版本表现:
- 测试题数:约1.5万
- 总分(准确率):71.7%
- 平均耗时(每次调用):65s
- 平均token(每次调用消耗的token):2369
- 平均花费(每千次调用的人民币花费):54.3
1、新旧对决
对比上一代版本(DeepSeek-V3.2-Think),deepseek-v4-pro呈现出的并非简单的"全面提升",而是一次明显的能力侧重再平衡,数据如下:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
*输出价格单位: 元/百万token
- 整体性能与排名变动:新版本总分从66.9%提升至71.7%,提升了4.8个百分点,排名从第30位上升至第7位。
- Coding能力显著提升:在coding维度上,deepseek-v4-pro取得72.2%,相比上一代DeepSeek-V3.2-Think的45.6%提升了26.6个百分点,是所有维度中提升幅度最大的一项。这与官方技术报告中"Agentic Coding达到当前开源模型最佳水平、内部使用体验优于Sonnet 4.5"的描述方向一致。
- Agent与工具调用大幅增强:agent与工具调用维度从52.9%提升至63.8%,提升了10.9个百分点,是仅次于coding的第二大提升项。结合官方公布的Terminal Bench 2.0、SWE Verified、BrowseComp等agentic benchmark数据来看,V4系列对Agent场景的优化是系统性的。
- 教育领域稳步提升:教育维度从53.9%提升至60.6%,提升了6.7个百分点,反映出新模型在世界知识层面的进步——这与官方在SimpleQA、Chinese-SimpleQA等知识类基准上的大幅领先相互印证。
- 医疗与心理健康基本持平:从84.2%微调至85.1%,变化幅度在1个百分点以内,保持稳定高位。
- 部分传统强项出现回调:金融(84.1%→81.6%,-2.5%)、法律与行政公务(84.3%→82.0%,-2.3%)小幅回调;语言与指令遵从(74.7%→69.7%,-5.0%)、推理与数学计算(77.6%→71.4%,-6.2%)则有较为明显的回调。
- 响应时间与token消耗:平均耗时从144s缩短至65s,下降约55%;平均token消耗从2572小幅降至2369(-7.9%)。在引入更复杂的Agent与Coding任务的前提下,平均单次调用反而更快、更精炼,这与官方披露的"百万token场景下推理FLOPs仅为V3.2的27%、KV cache仅为10%"的架构效率改进相吻合。
- Token与成本:输出价格从3.0元/M token上调至24.0元/M token,每千次调用花费从7.5元升至54.3元,整体调用花费上涨了约6倍。对于Agent、长上下文、Coding等场景,新版本提供了显著更强的能力底座;对于传统的中文知识推理任务,V3.2-Think依然是成本效率比突出的选择。
2、横向对比
在当前主流大模型竞争格局中,deepseek-v4-pro作为深度求索面向长上下文与Agent场景的新一代旗舰,表现如何?我们从三个维度进行横向对比分析。需要说明的是,本次评测侧重中文文本场景下的综合能力考察:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
同成本档位对比
- 50至80元/千次档位的中坚位置:deepseek-v4-pro(71.7%,54.3元)所处的成本区间内,主要的可比模型包括mimo-v2.5-pro(71.4%,64.3元)、Kimi-K2.5-Thinking(70.8%,77.1元)、GLM-5.1(70.7%,73.8元)、GLM-5(69.0%,61.2元)、GLM-5-Turbo(69.3%,60.8元)等。在这个档位中,deepseek-v4-pro的总分位于前列,且单次调用花费具备一定优势——相比Kimi-K2.5-Thinking便宜约30%、相比GLM-5.1便宜约26%。
- 速度也是重要的差异化变量:在该成本档位中,deepseek-v4-pro的平均耗时为65s,明显快于Kimi-K2.5-Thinking(338s)、GLM-5(130s)、GLM-5.1(183s)等同档位推理型模型,与mimo-v2.5-pro(56s)接近。这意味着在Agent与代码场景下,V4-Pro在单步响应速度上具备一定的工程友好度。
- 向上对比:成本更高的qwen3.6-max-preview(75.4%,139.2元)、gemini-3.1-pro-preview(75.2%,250.5元)、qwen3.5-plus(73.3%,22.9元)、kimi-k2.6(72.9%,100.4元)、Doubao-Seed-2.0-pro(72.8%,22.5元)等模型在总分上略高,但成本结构差异较大,其中qwen3.5-plus和Doubao-Seed-2.0-pro以更低的花费取得了更高的总分,成本效率比突出。
- 向下对比:在成本低的档位中,deepseek-v4-flash(68.8%,4.9元)、DeepSeek-V3.2-Think(66.9%,7.5元)、qwen3.5-flash(68.9%,10.4元)、hunyuan-2.0-thinking-20251109(68.6%,9.5元)等模型提供了不错的成本效率比方案,但在Agent、Coding等复杂场景下与deepseek-v4-pro存在能力差距。
新旧模型对比
- 自身代际进步明显:相比上一代DeepSeek-V3.2-Think(66.9%,第30位),deepseek-v4-pro在总分上提升了4.8个百分点,排名也从第30位提升至第7位。结合各细分维度看,这次代际升级的本质并非"全面碾压",而是Agent、Coding、教育、长上下文等V4系列重点投入方向的能力补齐。
- 深度求索产品线矩阵成型:deepseek-v4-pro(71.7%,54.3元,第7位)、deepseek-v4-flash(68.8%,4.9元,第22位)共同构成了V4系列的双子组合,覆盖旗舰级与轻量级两个定位;上一代DeepSeek-V3.2-Think(66.9%,7.5元,第30位)、DeepSeek-V3.1-Think(63.2%,24.7元,第53位)则形成成本效率比纵深,整个产品线的层次更加清晰。
- 与其他厂商新旗舰的对位:榜单前十中,新一代旗舰几乎已完成对老旗舰的替换——qwen3.6-max-preview(75.4%)、gemini-3.1-pro-preview(75.2%)、qwen3.5-plus(73.3%)、kimi-k2.6(72.9%)、Doubao-Seed-2.0-pro(72.8%)、gpt-5.4-high(72.6%)依次排在deepseek-v4-pro之前,差距大多在1至4个百分点之内。
开源VS闭源对比
- 在开放权重阵营中的位置:若将deepseek-v4-pro与开源旗舰一同比较,其71.7%的总分介于qwen3.5-plus(73.3%)与Qwen3.5-122B-A10B(70.9%)之间,同时高于Kimi-K2.5-Thinking(70.8%)、GLM-5.1(70.7%)、Qwen3.5-27B(70.6%)、GLM-5(69.0%)等同样近期发布的开源新作。结合官方Apex Shortlist 90.2%、SimpleQA-Verified 57.9%等基准数据,V4-Pro在开放权重阵营中具备较强的综合竞争力。
- 与闭源前沿的差距:当前榜单中,闭源的qwen3.6-max-preview(75.4%)、gemini-3.1-pro-preview(75.2%)、Doubao-Seed-2.0-pro(72.8%)、gpt-5.4-high(72.6%)位列前茅。deepseek-v4-pro与这些闭源前沿模型的差距在1至4个百分点之间,并未被甩开。考虑到V4-Pro在开放权重、百万token长上下文、Agentic Coding等方向的差异化优势,这种身位差对开源生态而言已具备相当的实用价值。
3、技术简要
结合官方技术报告(huggingface.co/deepseek-ai…
架构创新
V4系列在DeepSeek-V3的基础上引入了三项关键升级——其一是混合注意力架构,将"压缩稀疏注意力(CSA)"与"重压缩注意力(HCA)"交替使用,CSA通过将每m个token的KV缓存压缩为一项再叠加稀疏注意力。
HCA则进行更激进的KV缓存压缩;其二是流形约束超连接(mHC),用于强化常规残差连接、提升深层网络的训练稳定性;其三是引入Muon优化器,带来更快的收敛和更稳的训练。
长上下文效率
在百万token场景下,V4-Pro的单token推理FLOPs仅为DeepSeek-V3.2的27%,KV cache仅为10%;V4-Flash则进一步压缩至10%和7%。这是V4系列最核心的技术成果之一——让百万token上下文从"理论可行"走向"实际部署可行"。
FP4量化训练
V4系列在后训练阶段引入了FP4(MXFP4)量化感知训练,主要应用于MoE专家权重和CSA中的索引器QK路径。FP4到FP8的反量化在V4配置下是无损的,这使得整套量化训练流程可直接复用现有FP8训练框架。
后训练范式
V4系列将原本的混合RL阶段替换为"专家训练 + 在线策略蒸馏(OPD)"的两阶段范式——先为数学、代码、Agent、指令遵从等领域分别训练独立的专家模型,再通过多教师OPD将能力合并进统一模型。这种方式据称能在避免传统权重融合性能退化的同时,更高效地融合多领域能力。
三档推理模式
- V4-Pro与V4-Flash均支持Non-think、Think High、Think Max三种推理强度,分别对应日常任务、复杂问题求解、推理能力极限探索三类场景。Think Max模式通过更长的上下文与更宽松的长度惩罚,在最具挑战性的任务上获得更好成绩。
另外,官方在报告中坦诚了几点——V4-Pro在数学、STEM、HLE等知识与推理基准上仍落后于GPT-5.4、Gemini-3.1-Pro等闭源前沿模型;架构本身相对复杂,未来还需向更精简的方向收敛;Anticipatory Routing与SwiGLU Clamping等稳定性技巧的底层原理仍有待深入研究。
4、官方评测
DeepSeek官方在博客与技术报告中,将V4-Pro-Max(V4-Pro的最大推理强度模式)与Claude Opus 4.6、GPT-5.4、Gemini-3.1-Pro等顶级闭源模型,以及Kimi-K2.6、GLM-5.1等顶级开源模型进行了详细对比。
- Agent能力大幅提高:相比前代模型,DeepSeek-V4-Pro的Agent能力显著增强。在Agentic Coding评测中,V4-Pro已达到当前开源模型最佳水平,并在其他Agent相关评测中同样表现优异。官方表示,目前DeepSeek-V4已成为公司内部员工使用的Agentic Coding模型,据评测反馈使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式,但仍与Opus 4.6思考模式存在一定差距。
- 丰富的世界知识:DeepSeek-V4-Pro在世界知识测评中大幅领先其他开源模型,仅稍逊于顶尖闭源模型Gemini-Pro-3.1。具体到SimpleQA-Verified基准,V4-Pro-Max取得57.9分,相比开源前作提升约20分;Chinese-SimpleQA基准上V4-Pro-Max取得84.4分,是当前开源模型中的最高水平。
- 世界顶级推理性能:在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的优异成绩。具体到几项关键基准——LiveCodeBench V4-Pro-Max取得93.5分(高于Opus-4.6的88.8、Gemini-3.1-Pro的91.7),Codeforces Rating达到3206(高于GPT-5.4的3168、Gemini-3.1-Pro的3052),HMMT 2026 Feb取得95.2分,Apex Shortlist取得90.2分(位列对比模型中最高)。
- 长上下文表现: 在百万token级别的MRCR与CorpusQA基准上,DeepSeek-V4-Pro超越Gemini-3.1-Pro,但仍落后于Claude Opus 4.6(MRCR 1M 92.9)。在128K以内的上下文范围中,V4-Pro的检索性能保持稳定,超过128K后才出现可见的衰减。
目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear