深度求索DeepSeek-V4-Pro实测DeepSeek这次不卷跑分，主攻百万长上下文和Agent。中文榜单排名见仁见

深度求索在V3.2系列稳健迭代之后，于昨天祭出了全新一代的DeepSeek-V4系列预览版本，并按照其一贯风格同步开放了模型权重。此次发布按规模分为两个版本——参数量1.6T、激活49B的deepseek-v4-pro，以及参数量284B、激活13B的deepseek-v4-flash，两者均原生支持百万字超长上下文。官方对DeepSeek-V4系列的核心定位非常明确：通过混合稀疏注意力架构（CSA + HCA）显著降低长上下文的推理成本，在Agent能力、世界知识和推理性能上实现国内与开源领域的领先。本次我们先对其旗舰版本deepseek-v4-pro进行评测，测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。

deepseek-v4-pro版本表现：

测试题数：约1.5万
总分（准确率）：71.7%
平均耗时（每次调用）：65s
平均token（每次调用消耗的token）：2369
平均花费（每千次调用的人民币花费）：54.3

1、新旧对决

对比上一代版本（DeepSeek-V3.2-Think），deepseek-v4-pro呈现出的并非简单的"全面提升"，而是一次明显的能力侧重再平衡，数据如下：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位：元/百万token

整体性能与排名变动：新版本总分从66.9%提升至71.7%，提升了4.8个百分点，排名从第30位上升至第7位。
Coding能力显著提升：在coding维度上，deepseek-v4-pro取得72.2%，相比上一代DeepSeek-V3.2-Think的45.6%提升了26.6个百分点，是所有维度中提升幅度最大的一项。这与官方技术报告中"Agentic Coding达到当前开源模型最佳水平、内部使用体验优于Sonnet 4.5"的描述方向一致。
Agent与工具调用大幅增强：agent与工具调用维度从52.9%提升至63.8%，提升了10.9个百分点，是仅次于coding的第二大提升项。结合官方公布的Terminal Bench 2.0、SWE Verified、BrowseComp等agentic benchmark数据来看，V4系列对Agent场景的优化是系统性的。
教育领域稳步提升：教育维度从53.9%提升至60.6%，提升了6.7个百分点，反映出新模型在世界知识层面的进步——这与官方在SimpleQA、Chinese-SimpleQA等知识类基准上的大幅领先相互印证。
医疗与心理健康基本持平：从84.2%微调至85.1%，变化幅度在1个百分点以内，保持稳定高位。
部分传统强项出现回调：金融（84.1%→81.6%，-2.5%）、法律与行政公务（84.3%→82.0%，-2.3%）小幅回调；语言与指令遵从（74.7%→69.7%，-5.0%）、推理与数学计算（77.6%→71.4%，-6.2%）则有较为明显的回调。
响应时间与token消耗：平均耗时从144s缩短至65s，下降约55%；平均token消耗从2572小幅降至2369（-7.9%）。在引入更复杂的Agent与Coding任务的前提下，平均单次调用反而更快、更精炼，这与官方披露的"百万token场景下推理FLOPs仅为V3.2的27%、KV cache仅为10%"的架构效率改进相吻合。
Token与成本：输出价格从3.0元/M token上调至24.0元/M token，每千次调用花费从7.5元升至54.3元，整体调用花费上涨了约6倍。对于Agent、长上下文、Coding等场景，新版本提供了显著更强的能力底座；对于传统的中文知识推理任务，V3.2-Think依然是成本效率比突出的选择。

2、横向对比

在当前主流大模型竞争格局中，deepseek-v4-pro作为深度求索面向长上下文与Agent场景的新一代旗舰，表现如何？我们从三个维度进行横向对比分析。需要说明的是，本次评测侧重中文文本场景下的综合能力考察：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

50至80元/千次档位的中坚位置：deepseek-v4-pro（71.7%，54.3元）所处的成本区间内，主要的可比模型包括mimo-v2.5-pro（71.4%，64.3元）、Kimi-K2.5-Thinking（70.8%，77.1元）、GLM-5.1（70.7%，73.8元）、GLM-5（69.0%，61.2元）、GLM-5-Turbo（69.3%，60.8元）等。在这个档位中，deepseek-v4-pro的总分位于前列，且单次调用花费具备一定优势——相比Kimi-K2.5-Thinking便宜约30%、相比GLM-5.1便宜约26%。
速度也是重要的差异化变量：在该成本档位中，deepseek-v4-pro的平均耗时为65s，明显快于Kimi-K2.5-Thinking（338s）、GLM-5（130s）、GLM-5.1（183s）等同档位推理型模型，与mimo-v2.5-pro（56s）接近。这意味着在Agent与代码场景下，V4-Pro在单步响应速度上具备一定的工程友好度。
向上对比：成本更高的qwen3.6-max-preview（75.4%，139.2元）、gemini-3.1-pro-preview（75.2%，250.5元）、qwen3.5-plus（73.3%，22.9元）、kimi-k2.6（72.9%，100.4元）、Doubao-Seed-2.0-pro（72.8%，22.5元）等模型在总分上略高，但成本结构差异较大，其中qwen3.5-plus和Doubao-Seed-2.0-pro以更低的花费取得了更高的总分，成本效率比突出。
向下对比：在成本低的档位中，deepseek-v4-flash（68.8%，4.9元）、DeepSeek-V3.2-Think（66.9%，7.5元）、qwen3.5-flash（68.9%，10.4元）、hunyuan-2.0-thinking-20251109（68.6%，9.5元）等模型提供了不错的成本效率比方案，但在Agent、Coding等复杂场景下与deepseek-v4-pro存在能力差距。

新旧模型对比

自身代际进步明显：相比上一代DeepSeek-V3.2-Think（66.9%，第30位），deepseek-v4-pro在总分上提升了4.8个百分点，排名也从第30位提升至第7位。结合各细分维度看，这次代际升级的本质并非"全面碾压"，而是Agent、Coding、教育、长上下文等V4系列重点投入方向的能力补齐。
深度求索产品线矩阵成型：deepseek-v4-pro（71.7%，54.3元，第7位）、deepseek-v4-flash（68.8%，4.9元，第22位）共同构成了V4系列的双子组合，覆盖旗舰级与轻量级两个定位；上一代DeepSeek-V3.2-Think（66.9%，7.5元，第30位）、DeepSeek-V3.1-Think（63.2%，24.7元，第53位）则形成成本效率比纵深，整个产品线的层次更加清晰。
与其他厂商新旗舰的对位：榜单前十中，新一代旗舰几乎已完成对老旗舰的替换——qwen3.6-max-preview（75.4%）、gemini-3.1-pro-preview（75.2%）、qwen3.5-plus（73.3%）、kimi-k2.6（72.9%）、Doubao-Seed-2.0-pro（72.8%）、gpt-5.4-high（72.6%）依次排在deepseek-v4-pro之前，差距大多在1至4个百分点之内。

开源VS闭源对比

在开放权重阵营中的位置：若将deepseek-v4-pro与开源旗舰一同比较，其71.7%的总分介于qwen3.5-plus（73.3%）与Qwen3.5-122B-A10B（70.9%）之间，同时高于Kimi-K2.5-Thinking（70.8%）、GLM-5.1（70.7%）、Qwen3.5-27B（70.6%）、GLM-5（69.0%）等同样近期发布的开源新作。结合官方Apex Shortlist 90.2%、SimpleQA-Verified 57.9%等基准数据，V4-Pro在开放权重阵营中具备较强的综合竞争力。
与闭源前沿的差距：当前榜单中，闭源的qwen3.6-max-preview（75.4%）、gemini-3.1-pro-preview（75.2%）、Doubao-Seed-2.0-pro（72.8%）、gpt-5.4-high（72.6%）位列前茅。deepseek-v4-pro与这些闭源前沿模型的差距在1至4个百分点之间，并未被甩开。考虑到V4-Pro在开放权重、百万token长上下文、Agentic Coding等方向的差异化优势，这种身位差对开源生态而言已具备相当的实用价值。

3、技术简要

结合官方技术报告（huggingface.co/deepseek-ai…

架构创新

V4系列在DeepSeek-V3的基础上引入了三项关键升级——其一是混合注意力架构，将"压缩稀疏注意力（CSA）"与"重压缩注意力（HCA）"交替使用，CSA通过将每m个token的KV缓存压缩为一项再叠加稀疏注意力。

HCA则进行更激进的KV缓存压缩；其二是流形约束超连接（mHC），用于强化常规残差连接、提升深层网络的训练稳定性；其三是引入Muon优化器，带来更快的收敛和更稳的训练。

长上下文效率

在百万token场景下，V4-Pro的单token推理FLOPs仅为DeepSeek-V3.2的27%，KV cache仅为10%；V4-Flash则进一步压缩至10%和7%。这是V4系列最核心的技术成果之一——让百万token上下文从"理论可行"走向"实际部署可行"。

FP4量化训练

V4系列在后训练阶段引入了FP4（MXFP4）量化感知训练，主要应用于MoE专家权重和CSA中的索引器QK路径。FP4到FP8的反量化在V4配置下是无损的，这使得整套量化训练流程可直接复用现有FP8训练框架。

后训练范式

V4系列将原本的混合RL阶段替换为"专家训练 + 在线策略蒸馏（OPD）"的两阶段范式——先为数学、代码、Agent、指令遵从等领域分别训练独立的专家模型，再通过多教师OPD将能力合并进统一模型。这种方式据称能在避免传统权重融合性能退化的同时，更高效地融合多领域能力。

三档推理模式

V4-Pro与V4-Flash均支持Non-think、Think High、Think Max三种推理强度，分别对应日常任务、复杂问题求解、推理能力极限探索三类场景。Think Max模式通过更长的上下文与更宽松的长度惩罚，在最具挑战性的任务上获得更好成绩。

另外，官方在报告中坦诚了几点——V4-Pro在数学、STEM、HLE等知识与推理基准上仍落后于GPT-5.4、Gemini-3.1-Pro等闭源前沿模型；架构本身相对复杂，未来还需向更精简的方向收敛；Anticipatory Routing与SwiGLU Clamping等稳定性技巧的底层原理仍有待深入研究。

4、官方评测

DeepSeek官方在博客与技术报告中，将V4-Pro-Max（V4-Pro的最大推理强度模式）与Claude Opus 4.6、GPT-5.4、Gemini-3.1-Pro等顶级闭源模型，以及Kimi-K2.6、GLM-5.1等顶级开源模型进行了详细对比。

Agent能力大幅提高：相比前代模型，DeepSeek-V4-Pro的Agent能力显著增强。在Agentic Coding评测中，V4-Pro已达到当前开源模型最佳水平，并在其他Agent相关评测中同样表现优异。官方表示，目前DeepSeek-V4已成为公司内部员工使用的Agentic Coding模型，据评测反馈使用体验优于Sonnet 4.5，交付质量接近Opus 4.6非思考模式，但仍与Opus 4.6思考模式存在一定差距。

丰富的世界知识：DeepSeek-V4-Pro在世界知识测评中大幅领先其他开源模型，仅稍逊于顶尖闭源模型Gemini-Pro-3.1。具体到SimpleQA-Verified基准，V4-Pro-Max取得57.9分，相比开源前作提升约20分；Chinese-SimpleQA基准上V4-Pro-Max取得84.4分，是当前开源模型中的最高水平。
世界顶级推理性能：在数学、STEM、竞赛型代码的测评中，DeepSeek-V4-Pro超越当前所有已公开评测的开源模型，取得了比肩世界顶级闭源模型的优异成绩。具体到几项关键基准——LiveCodeBench V4-Pro-Max取得93.5分（高于Opus-4.6的88.8、Gemini-3.1-Pro的91.7），Codeforces Rating达到3206（高于GPT-5.4的3168、Gemini-3.1-Pro的3052），HMMT 2026 Feb取得95.2分，Apex Shortlist取得90.2分（位列对比模型中最高）。

长上下文表现： 在百万token级别的MRCR与CorpusQA基准上，DeepSeek-V4-Pro超越Gemini-3.1-Pro，但仍落后于Claude Opus 4.6（MRCR 1M 92.9）。在128K以内的上下文范围中，V4-Pro的检索性能保持稳定，超过128K后才出现可见的衰减。

目前所有大模型评测文章在公众号：大模型评测及优化NoneLinear