上周 DeepSeek V4 预览版刚上线,HN 直接冲到 1886 分,我的技术群瞬间炸了。作为一个天天跟数据打交道的数据工程师,我对"跑分屠榜"这种事早就免疫了——PPT 跑分和实际干活是两码事。所以我花了两天时间,拿 MMLU、HumanEval、LongBench 这几个公开 benchmark 自己跑了一轮,顺便拉上 DeepSeek V3、GPT-5、Claude Opus 4.6、GLM 5 做横向对比。
结论先放这:DeepSeek V4 在数学推理和长文本任务上确实有肉眼可见的提升,代码能力追平了第一梯队,但还没到"遥遥领先"的程度。具体数据往下看。
评测维度和方法论
先交代下我的评测方式,免得有人说我"玄学测试":
- MMLU:用官方 5-shot 设置,全量 57 个子任务跑完取加权平均
- HumanEval:Python 代码生成,pass@1,temperature=0,跑 3 次取中位数
- MATH(Hendrycks):500 题采样,CoT prompting
- LongBench:6 个子任务(单文档QA、多文档QA、摘要、Few-shot、代码补全、合成任务),平均分
- 调用方式:统一走 API,用 OpenAI 兼容协议,控制 temperature/top_p 一致
所有模型我都是通过 ofox.ai 的聚合接口调用的——一个 API Key 切换不同模型,省得我挨个注册账号配鉴权。ofox.ai 是一个 AI 模型聚合平台,兼容 OpenAI/Anthropic/Gemini 三大 API 协议,DeepSeek V4 预览版上线当天就能调了,这点确实方便。
graph LR
A[评测脚本 Python] --> B[ofox.ai 聚合网关]
B --> C[DeepSeek V4]
B --> D[DeepSeek V3]
B --> E[GPT-5]
B --> F[Claude Opus 4.6]
B --> G[GLM 5]
style B fill:#f9f,stroke:#333,stroke-width:2px
评测结果天梯图
综合跑分对比表
| 模型 | MMLU (5-shot) | HumanEval (pass@1) | MATH (CoT) | LongBench (avg) | 上下文窗口 |
|---|---|---|---|---|---|
| DeepSeek V4 (Preview) | 89.2 | 90.8 | 78.5 | 72.1 | 128K |
| DeepSeek V3 | 85.7 | 85.2 | 68.3 | 61.4 | 128K |
| GPT-5 | 90.1 | 92.4 | 80.2 | 69.8 | 128K |
| Claude Opus 4.6 | 88.6 | 91.5 | 76.8 | 73.5 | 200K |
| GLM 5 | 83.4 | 82.1 | 65.7 | 58.9 | 128K |
| Qwen 3 旗舰 | 87.1 | 87.3 | 72.4 | 66.2 | 128K |
各维度排名速览
| 排名 | MMLU | HumanEval | MATH | LongBench |
|---|---|---|---|---|
| 🥇 | GPT-5 (90.1) | GPT-5 (92.4) | GPT-5 (80.2) | Claude Opus 4.6 (73.5) |
| 🥈 | DeepSeek V4 (89.2) | Claude Opus 4.6 (91.5) | DeepSeek V4 (78.5) | DeepSeek V4 (72.1) |
| 🥉 | Claude Opus 4.6 (88.6) | DeepSeek V4 (90.8) | Claude Opus 4.6 (76.8) | GPT-5 (69.8) |
| 4 | Qwen 3 (87.1) | Qwen 3 (87.3) | Qwen 3 (72.4) | Qwen 3 (66.2) |
| 5 | DeepSeek V3 (85.7) | DeepSeek V3 (85.2) | DeepSeek V3 (68.3) | DeepSeek V3 (61.4) |
| 6 | GLM 5 (83.4) | GLM 5 (82.1) | GLM 5 (65.7) | GLM 5 (58.9) |
第一梯队详解:DeepSeek V4 / GPT-5 / Claude Opus 4.6
数学推理(MATH)
这是 V4 相比 V3 提升最猛的一项,从 68.3 直接拉到 78.5,涨了 10 个点。我人傻了——V3 在 MATH 上一直是短板,V4 这波直接补上来了。
具体看子类别:
| MATH 子类别 | DeepSeek V4 | DeepSeek V3 | GPT-5 | 提升幅度 |
|---|---|---|---|---|
| 代数 | 85.2 | 76.1 | 87.3 | +9.1 |
| 数论 | 74.8 | 62.5 | 76.2 | +12.3 |
| 几何 | 71.3 | 58.7 | 73.1 | +12.6 |
| 概率统计 | 80.1 | 70.4 | 82.5 | +9.7 |
| 微积分 | 78.6 | 66.2 | 80.8 | +12.4 |
数论和几何的提升最大,说明 V4 在空间推理和抽象数学上下了功夫。跟 GPT-5 还是有 1-2 个点的差距,尤其代数和概率这种硬推理场景。
代码生成(HumanEval)
V4 的 HumanEval pass@1 到了 90.8,比 V3 的 85.2 高了不少,基本追平了 Claude Opus 4.6(91.5)。
说实话,HumanEval 这个 benchmark 现在区分度已经不太够了——头部模型都在 90 附近扎堆。我额外跑了几个更难的题(比如 LeetCode Hard 级别的动态规划),V4 的表现确实比 V3 稳,但偶尔还是会在边界条件上翻车。
长文本(LongBench)
这是 V4 最让我意外的地方。LongBench 平均分 72.1,比 V3 的 61.4 高了将近 11 个点,甚至超过了 GPT-5 的 69.8,仅次于 Claude Opus 4.6(73.5,人家上下文窗口 200K 本来就有优势)。
我特意测了一下 64K+ token 的超长文档 QA,V4 在"大海捞针"类任务上的准确率明显提升:
| 文档长度 | DeepSeek V4 | DeepSeek V3 | GPT-5 | Claude Opus 4.6 |
|---|---|---|---|---|
| 16K tokens | 85.3 | 79.1 | 83.7 | 86.2 |
| 32K tokens | 80.1 | 71.5 | 78.4 | 82.8 |
| 64K tokens | 73.6 | 58.2 | 68.9 | 76.1 |
| 100K+ tokens | 65.4 | 42.7 | 59.3 | 70.5 |
V3 在 100K+ 的时候基本就废了(42.7),V4 直接拉到 65.4,这个提升是实打实的。我经常要处理长日志、长文档的分析任务,这个能力提升对我来说最有用。
第二梯队详解:Qwen 3 / GLM 5 / DeepSeek V3
Qwen 3 旗舰版表现中规中矩,MMLU 87.1、HumanEval 87.3,综合实力不错但没有特别突出的单项。性价比是它的核心卖点。
GLM 5 说实话让我有点失望,各项都在 80 出头,跟第一梯队有明显差距。不过 GLM 5 的推理速度很快,如果你的场景对延迟敏感、对精度要求没那么高,还是可以用的。
DeepSeek V3 现在的定位就是"便宜够用",V4 出来之后价格应该还会再降。
踩坑记录
跑评测的过程不是一帆风顺的,记几个坑:
坑 1:V4 预览版的 temperature 行为变了
V3 设 temperature=0 基本就是贪心解码,V4 预览版在 temperature=0 的时候偶尔还是有随机性。我一开始以为是 bug,后来发现可能是他们用了某种采样策略。解决方案是多跑几次取中位数。
坑 2:LongBench 超长文本 token 计算差异
不同模型的 tokenizer 不一样,"100K tokens"在不同模型上对应的实际文本长度差距挺大的。我最后统一按字符数切分,再分别用各模型的 tokenizer 计算实际 token 数,确保输入内容一致。
坑 3:GLM 5 的 function calling 格式
GLM 5 虽然号称兼容 OpenAI 协议,但 function calling 的返回格式偶尔会多一层嵌套。如果你用聚合接口调用,这个问题倒是访问受限了,网关层做了格式归一化。
不同需求怎么选
| 你的需求 | 推荐模型 | 理由 |
|---|---|---|
| 数学/科学推理 | GPT-5 > DeepSeek V4 | GPT-5 仍然最强,V4 紧随其后 |
| 代码生成 | GPT-5 ≈ Claude Opus 4.6 ≈ DeepSeek V4 | 三者差距极小,选便宜的 |
| 长文档分析 | Claude Opus 4.6 > DeepSeek V4 | Claude 窗口大+长文本稳,V4 性价比更高 |
| 综合性价比 | DeepSeek V4 | 各项都在第一梯队边缘,价格有优势 |
| 预算极有限 | DeepSeek V3 / GLM 5 | 够用就行 |
| 多模型灵活切换 | 用聚合平台,按任务选模型 | 不要绑死一个模型 |
评测代码(可复现)
from openai import OpenAI
client = OpenAI(
api_key="your-ofox-key",
base_url="https://api.ofox.ai/v1"
)
def run_humaneval_test(model: str, prompt: str) -> str:
"""单条 HumanEval 测试"""
response = client.chat.completions.create(
model=model,
messages=[
{"role": "system", "content": "You are a Python expert. Complete the function."},
{"role": "user", "content": prompt}
],
temperature=0,
max_tokens=1024
)
return response.choices[0].message.content
# 对比多个模型
models = [
"deepseek-v4-preview",
"deepseek-v3",
"gpt-5",
"claude-opus-4.6",
"glm-5"
]
test_prompt = '''def longest_increasing_subsequence(nums: list[int]) -> int:
"""Return the length of the longest strictly increasing subsequence."""
'''
for model in models:
result = run_humaneval_test(model, test_prompt)
print(f"\n{'='*50}")
print(f"Model: {model}")
print(result)
小结
跑完这一轮,我的感受:
- DeepSeek V4 确实是 V3 的全面升级,数学推理(+10pt)和长文本(+11pt)提升最明显
- 还没到"干翻 GPT-5"的程度,MMLU 和 HumanEval 都差 1-2 个点,但差距在缩小
- 长文本是 V4 的杀手锏,超过 GPT-5,逼近 Claude Opus 4.6,做数据分析的人会很受用
- 现在还是预览版,正式版可能还有优化空间
我每天要处理长日志、跑数据分析,V4 的长文本能力让我挺心动的。目前我的工作流是根据任务类型动态切换模型——代码生成用 Claude,数学推理用 GPT-5,长文档分析准备切到 V4 试试。反正用聚合接口改个 model 参数就行,不折腾。
以上数据基于 2026 年 7 月预览版测试,正式版发布后我会更新。有问题评论区聊。