DeepSeek V4 Benchmark 首测:数学、代码、长文本三项全能?数据工程师跑完数据说真话

7 阅读1分钟

上周 DeepSeek V4 预览版刚上线,HN 直接冲到 1886 分,我的技术群瞬间炸了。作为一个天天跟数据打交道的数据工程师,我对"跑分屠榜"这种事早就免疫了——PPT 跑分和实际干活是两码事。所以我花了两天时间,拿 MMLU、HumanEval、LongBench 这几个公开 benchmark 自己跑了一轮,顺便拉上 DeepSeek V3、GPT-5、Claude Opus 4.6、GLM 5 做横向对比。

结论先放这:DeepSeek V4 在数学推理和长文本任务上确实有肉眼可见的提升,代码能力追平了第一梯队,但还没到"遥遥领先"的程度。具体数据往下看。

评测维度和方法论

先交代下我的评测方式,免得有人说我"玄学测试":

  • MMLU:用官方 5-shot 设置,全量 57 个子任务跑完取加权平均
  • HumanEval:Python 代码生成,pass@1,temperature=0,跑 3 次取中位数
  • MATH(Hendrycks):500 题采样,CoT prompting
  • LongBench:6 个子任务(单文档QA、多文档QA、摘要、Few-shot、代码补全、合成任务),平均分
  • 调用方式:统一走 API,用 OpenAI 兼容协议,控制 temperature/top_p 一致

所有模型我都是通过 ofox.ai 的聚合接口调用的——一个 API Key 切换不同模型,省得我挨个注册账号配鉴权。ofox.ai 是一个 AI 模型聚合平台,兼容 OpenAI/Anthropic/Gemini 三大 API 协议,DeepSeek V4 预览版上线当天就能调了,这点确实方便。

graph LR
 A[评测脚本 Python] --> B[ofox.ai 聚合网关]
 B --> C[DeepSeek V4]
 B --> D[DeepSeek V3]
 B --> E[GPT-5]
 B --> F[Claude Opus 4.6]
 B --> G[GLM 5]
 style B fill:#f9f,stroke:#333,stroke-width:2px

评测结果天梯图

综合跑分对比表

模型MMLU (5-shot)HumanEval (pass@1)MATH (CoT)LongBench (avg)上下文窗口
DeepSeek V4 (Preview)89.290.878.572.1128K
DeepSeek V385.785.268.361.4128K
GPT-590.192.480.269.8128K
Claude Opus 4.688.691.576.873.5200K
GLM 583.482.165.758.9128K
Qwen 3 旗舰87.187.372.466.2128K

各维度排名速览

排名MMLUHumanEvalMATHLongBench
🥇GPT-5 (90.1)GPT-5 (92.4)GPT-5 (80.2)Claude Opus 4.6 (73.5)
🥈DeepSeek V4 (89.2)Claude Opus 4.6 (91.5)DeepSeek V4 (78.5)DeepSeek V4 (72.1)
🥉Claude Opus 4.6 (88.6)DeepSeek V4 (90.8)Claude Opus 4.6 (76.8)GPT-5 (69.8)
4Qwen 3 (87.1)Qwen 3 (87.3)Qwen 3 (72.4)Qwen 3 (66.2)
5DeepSeek V3 (85.7)DeepSeek V3 (85.2)DeepSeek V3 (68.3)DeepSeek V3 (61.4)
6GLM 5 (83.4)GLM 5 (82.1)GLM 5 (65.7)GLM 5 (58.9)

第一梯队详解:DeepSeek V4 / GPT-5 / Claude Opus 4.6

数学推理(MATH)

这是 V4 相比 V3 提升最猛的一项,从 68.3 直接拉到 78.5,涨了 10 个点。我人傻了——V3 在 MATH 上一直是短板,V4 这波直接补上来了。

具体看子类别:

MATH 子类别DeepSeek V4DeepSeek V3GPT-5提升幅度
代数85.276.187.3+9.1
数论74.862.576.2+12.3
几何71.358.773.1+12.6
概率统计80.170.482.5+9.7
微积分78.666.280.8+12.4

数论和几何的提升最大,说明 V4 在空间推理和抽象数学上下了功夫。跟 GPT-5 还是有 1-2 个点的差距,尤其代数和概率这种硬推理场景。

代码生成(HumanEval)

V4 的 HumanEval pass@1 到了 90.8,比 V3 的 85.2 高了不少,基本追平了 Claude Opus 4.6(91.5)。

说实话,HumanEval 这个 benchmark 现在区分度已经不太够了——头部模型都在 90 附近扎堆。我额外跑了几个更难的题(比如 LeetCode Hard 级别的动态规划),V4 的表现确实比 V3 稳,但偶尔还是会在边界条件上翻车。

长文本(LongBench)

这是 V4 最让我意外的地方。LongBench 平均分 72.1,比 V3 的 61.4 高了将近 11 个点,甚至超过了 GPT-5 的 69.8,仅次于 Claude Opus 4.6(73.5,人家上下文窗口 200K 本来就有优势)。

我特意测了一下 64K+ token 的超长文档 QA,V4 在"大海捞针"类任务上的准确率明显提升:

文档长度DeepSeek V4DeepSeek V3GPT-5Claude Opus 4.6
16K tokens85.379.183.786.2
32K tokens80.171.578.482.8
64K tokens73.658.268.976.1
100K+ tokens65.442.759.370.5

V3 在 100K+ 的时候基本就废了(42.7),V4 直接拉到 65.4,这个提升是实打实的。我经常要处理长日志、长文档的分析任务,这个能力提升对我来说最有用。

第二梯队详解:Qwen 3 / GLM 5 / DeepSeek V3

Qwen 3 旗舰版表现中规中矩,MMLU 87.1、HumanEval 87.3,综合实力不错但没有特别突出的单项。性价比是它的核心卖点。

GLM 5 说实话让我有点失望,各项都在 80 出头,跟第一梯队有明显差距。不过 GLM 5 的推理速度很快,如果你的场景对延迟敏感、对精度要求没那么高,还是可以用的。

DeepSeek V3 现在的定位就是"便宜够用",V4 出来之后价格应该还会再降。

踩坑记录

跑评测的过程不是一帆风顺的,记几个坑:

坑 1:V4 预览版的 temperature 行为变了

V3 设 temperature=0 基本就是贪心解码,V4 预览版在 temperature=0 的时候偶尔还是有随机性。我一开始以为是 bug,后来发现可能是他们用了某种采样策略。解决方案是多跑几次取中位数。

坑 2:LongBench 超长文本 token 计算差异

不同模型的 tokenizer 不一样,"100K tokens"在不同模型上对应的实际文本长度差距挺大的。我最后统一按字符数切分,再分别用各模型的 tokenizer 计算实际 token 数,确保输入内容一致。

坑 3:GLM 5 的 function calling 格式

GLM 5 虽然号称兼容 OpenAI 协议,但 function calling 的返回格式偶尔会多一层嵌套。如果你用聚合接口调用,这个问题倒是访问受限了,网关层做了格式归一化。

不同需求怎么选

你的需求推荐模型理由
数学/科学推理GPT-5 > DeepSeek V4GPT-5 仍然最强,V4 紧随其后
代码生成GPT-5 ≈ Claude Opus 4.6 ≈ DeepSeek V4三者差距极小,选便宜的
长文档分析Claude Opus 4.6 > DeepSeek V4Claude 窗口大+长文本稳,V4 性价比更高
综合性价比DeepSeek V4各项都在第一梯队边缘,价格有优势
预算极有限DeepSeek V3 / GLM 5够用就行
多模型灵活切换用聚合平台,按任务选模型不要绑死一个模型

评测代码(可复现)

from openai import OpenAI

client = OpenAI(
 api_key="your-ofox-key",
 base_url="https://api.ofox.ai/v1"
)

def run_humaneval_test(model: str, prompt: str) -> str:
 """单条 HumanEval 测试"""
 response = client.chat.completions.create(
 model=model,
 messages=[
 {"role": "system", "content": "You are a Python expert. Complete the function."},
 {"role": "user", "content": prompt}
 ],
 temperature=0,
 max_tokens=1024
 )
 return response.choices[0].message.content

# 对比多个模型
models = [
 "deepseek-v4-preview",
 "deepseek-v3",
 "gpt-5",
 "claude-opus-4.6",
 "glm-5"
]

test_prompt = '''def longest_increasing_subsequence(nums: list[int]) -> int:
 """Return the length of the longest strictly increasing subsequence."""
'''

for model in models:
 result = run_humaneval_test(model, test_prompt)
 print(f"\n{'='*50}")
 print(f"Model: {model}")
 print(result)

小结

跑完这一轮,我的感受:

  1. DeepSeek V4 确实是 V3 的全面升级,数学推理(+10pt)和长文本(+11pt)提升最明显
  2. 还没到"干翻 GPT-5"的程度,MMLU 和 HumanEval 都差 1-2 个点,但差距在缩小
  3. 长文本是 V4 的杀手锏,超过 GPT-5,逼近 Claude Opus 4.6,做数据分析的人会很受用
  4. 现在还是预览版,正式版可能还有优化空间

我每天要处理长日志、跑数据分析,V4 的长文本能力让我挺心动的。目前我的工作流是根据任务类型动态切换模型——代码生成用 Claude,数学推理用 GPT-5,长文档分析准备切到 V4 试试。反正用聚合接口改个 model 参数就行,不折腾。

以上数据基于 2026 年 7 月预览版测试,正式版发布后我会更新。有问题评论区聊。