【评测系列6】新模型上线怎么测？我用 10条真实任务对比了 GLM-5.1 和 DeepSeek-V4 我用 10条真

我用 10条真实任务对比了 GLM-5.1 和 DeepSeek-V4

测试员周周 | 14 年测试经验 | 用数据说话

新模型发布，媒体通稿满天飞。"XX 模型全面超越 XX"、"性能提升 XX%"——这些数字你怎么验证？

我做了 14 年测试，职业本能告诉我：不跑一遍，不信任何数字。

正好，阿里云百炼上了 GLM-5.1，DeepSeek 发布了 V4-Pro。两个模型都在打"代码能力"和"推理能力"的牌。

我从我的 CrewAI 测试平台里抽了 10条真实任务——用例生成、性能方案、Bug 诊断、代码 Review——让两个模型各跑一遍，记录耗时、Token 消耗、输出质量。

结果出乎我的意料。

🛑 先说结论

一句话总结：质量持平，但效率差距在扩大。

✅ 通过率：两个模型均 100% 通过（10/10），质量没有明显差距。

⚡ 速度：DeepSeek-V4-Pro 快 14.6% （平均 60.1s vs 70.4s）。

💰 成本：DeepSeek-V4-Pro 省 32.5% Token（平均 2,275 vs 3,369）。

如果你追求速度和成本，DeepSeek-V4-Pro 明显更优。

我测了什么？怎么测的？

测试平台

我搭建了一个基于 CrewAI 的多 Agent 测试平台，包含：

• 5 个 Agent：需求解析、脚本生成、性能测试、安全扫描、智能诊断

• 3 个工具：API 测试（httpx）、UI 测试（Playwright）、性能压测（并发控制）

• 完整工作流：需求解析 → 用例生成 → 用例评审 → 脚本执行 → 报告生成

这次评测用的 10条任务，全部来自这个平台的真实使用场景，不是网上找的公开数据集。

编辑

评测过程：一场 13 分钟的实测

GLM-5.1 评测过程

🚀 开始评测: GLM-5.1（百炼）

[ 1/10] BENCH_001 (用例生成, Medium) ... ✅ (80.2s, 4017 tokens)

[ 2/10] BENCH_002 (用例评审, Medium) ... ✅ (67.9s, 2804 tokens)

[ 3/10] BENCH_003 (API 测试脚本, Medium) ... ✅ (54.0s, 3272 tokens)

[ 4/10] BENCH_004 (性能测试方案, Hard) ... ✅ (72.4s, 3175 tokens)

[ 5/10] BENCH_005 (Bug 分析诊断, Hard) ... ✅ (67.3s, 2855 tokens)

[ 6/10] BENCH_006 (安全测试数据, Medium) ... ✅ (66.6s, 3636 tokens)

[ 7/10] BENCH_007 (Locust 脚本, Hard) ... ✅ (105.6s, 5053 tokens)

[ 8/10] BENCH_008 (测试报告生成, Medium) ... ✅ (51.4s, 2454 tokens)

[ 9/10] BENCH_009 (需求解析, Easy) ... ✅ (53.5s, 2623 tokens)

[10/10] BENCH_010 (代码 Review, Hard) ... ✅ (85.0s, 3808 tokens)

✅ 评测完成: GLM-5.1（百炼）

通过率: 100% (10/10) | 平均耗时: 70.4s | 平均 Token: 3,369

DeepSeek-V4-Pro 评测过程

🚀 开始评测: DeepSeek-V4-Pro（官方）

[ 1/10] BENCH_001 (用例生成, Medium) ... ✅ (79.2s, 2712 tokens)

[ 2/10] BENCH_002 (用例评审, Medium) ... ✅ (49.7s, 1791 tokens)

[ 3/10] BENCH_003 (API 测试脚本, Medium) ... ✅ (73.9s, 2850 tokens)

[ 4/10] BENCH_004 (性能测试方案, Hard) ... ✅ (41.9s, 1713 tokens)

[ 5/10] BENCH_005 (Bug 分析诊断, Hard) ... ✅ (48.2s, 1658 tokens)

[ 6/10] BENCH_006 (安全测试数据, Medium) ... ✅ (55.7s, 2688 tokens)

[ 7/10] BENCH_007 (Locust 脚本, Hard) ... ✅ (78.3s, 3472 tokens)

[ 8/10] BENCH_008 (测试报告生成, Medium) ... ✅ (24.0s, 959 tokens)

[ 9/10] BENCH_009 (需求解析, Easy) ... ✅ (44.3s, 1646 tokens)

[10/10] BENCH_010 (代码 Review, Hard) ... ✅ (70.9s, 2629 tokens)

✅ 评测完成: DeepSeek-V4-Pro（官方）

通过率: 100% (10/10) | 平均耗时: 60.1s | 平均 Token: 2,275

评测结果：数据说话

总体对比

指标	GLM-5.1	DeepSeek-V4-Pro	差异
通过率	100% (10/10)	100% (10/10)	持平
平均耗时	70.4s	60.1s	DeepSeek 快 14.6%
平均 Token	3,369	2,275	DeepSeek 省 32.5%
总 Token 消耗	33,690	22,748	节省 10,942 tokens

编辑

逐任务对比

任务	类别	难度	GLM-5.1	DeepSeek-V4	耗时差	Token差
BENCH_001	用例生成	Medium	80.2s	79.2s	-1.0s	-1,305
BENCH_002	用例评审	Medium	67.9s	49.7s	-18.2s	-1,013
BENCH_003	API 脚本	Medium	54.0s	73.9s	+19.9s	-422
BENCH_004	性能方案	Hard	72.4s	41.9s	-30.5s	-1,462
BENCH_005	Bug 诊断	Hard	67.3s	48.2s	-19.1s	-1,197
BENCH_006	安全数据	Medium	66.6s	55.7s	-10.9s	-948
BENCH_007	Locust 脚本	Hard	105.6s	78.3s	-27.3s	-1,581
BENCH_008	测试报告	Medium	51.4s	24.0s	-27.4s	-1,495
BENCH_009	需求解析	Easy	53.5s	44.3s	-9.2s	-977
BENCH_010	代码 Review	Hard	85.0s	70.9s	-14.1s	-1,179

编辑

关键发现

🏆 DeepSeek-V4-Pro 优势：

1. 速度快 14.6% ：10 条任务中 8 条比 GLM-5.1 快

2. Token 节省 32.5% ：每条任务都显著节省

3. 测试报告生成最快：24 秒 vs 51.4 秒（快一倍）

4. 性能方案差距最大：快 30.5 秒，节省 1,462 tokens

📊 GLM-5.1 优势：

1. API 测试脚本生成更快：BENCH_003 快 19.9 秒

2. 百炼平台集成：通过阿里云百炼调用，国内访问更稳定

3. 免费额度：百炼提供免费额度，成本更低

输出质量对比

BENCH_001 - 用例生成

GLM-5.1（80.2s, 4,017 tokens）：

"针对电商秒杀系统的特点（高并发、强一致性、严格业务规则），测试用例的设计不仅要覆盖常规的 CRUD 操作，更要重点关注并发场景、超卖防范、限购逻辑及时间窗口边界。"

DeepSeek-V4-Pro（79.2s, 2,712 tokens）：

"以下是为电商秒杀系统设计的测试用例，涵盖商品查询、秒杀活动查询、订单查询以及开始秒杀等接口，并紧密结合业务规则。"

评价：质量相当，DeepSeek 更简洁（节省 1,305 tokens）。

BENCH_004 - 性能测试方案

GLM-5.1（72.4s, 3,175 tokens）：

"秒杀场景的核心矛盾是 '极高流量涌入'与'极低库存产出' ，因此测试目标需区分'技术指标'与'业务指标'。"

DeepSeek-V4-Pro（41.9s, 1,713 tokens）：

"QPS ≥ 1000（支持峰值瞬时并发），稳态期望承载＞1500。响应时间 P50 ≤ 200ms，P95 ≤ 500ms，P99 ≤ 1s。"

评价：DeepSeek 明显更快（快 30.5 秒），质量相当。

BENCH_005 - Bug 分析诊断

GLM-5.1（67.3s, 2,855 tokens）：

"这是一份典型的由数据库底层瓶颈引发的上层雪崩效应的性能测试报告。核心瓶颈在：数据库层（DB）及数据库连接池。 "

DeepSeek-V4-Pro（48.2s, 1,658 tokens）：

"核心瓶颈：数据库层。直接表现：连接池耗尽、ConnectionPoolTimeout、Database locked 错误。"

评价：分析深度相当，DeepSeek 快 19 秒。

成本对比

模型	总 Token	单价	总成本
GLM-5.1	33,690	0.02 元/千 token	0 元（免费额度）
DeepSeek-V4-Pro	22,748	0.04 元/千 token	0.91 元

注：GLM-5.1 使用百炼免费额度，DeepSeek-V4-Pro 按官方定价估算。实际成本因套餐而异。

推荐建议

场景	推荐模型	理由
追求速度	DeepSeek-V4-Pro	快 14.6%，Token 省 32.5%
追求成本	GLM-5.1	百炼免费额度
国内访问	GLM-5.1	阿里云百炼，国内访问稳定
复杂代码生成	DeepSeek-V4-Pro	Token 效率高，速度快
测试报告生成	DeepSeek-V4-Pro	速度快一倍
API 脚本生成	GLM-5.1	快 19.9 秒

写在最后

这次评测让我有两个发现：

第一，质量差距在缩小。 两个模型在 10条真实任务上都达到了 100% 通过率，说明国产模型和 DeepSeek 在代码/测试领域的质量已经非常接近。

第二，效率差距在扩大。 DeepSeek-V4-Pro 在速度和 Token 效率上的优势明显（快 14.6%，省 32.5% 的 Token）。这意味着在实际使用中，DeepSeek 的成本更低、响应更快。

我的建议：如果你追求速度和成本，选 DeepSeek-V4-Pro；如果你需要国内稳定访问和免费额度，GLM-5.1 是不错的选择。

🔜 下篇预告

上篇讲了结论，下篇我会：

1. 完整展示 10 条任务的 Prompt（每条任务的实际输入）

2. 逐条对比两个模型的完整输出（代码质量、分析深度）

3. 评测框架开源（你可以直接用于新模型上线测试）

想看完整 Prompt 和输出对比？关注「测试员周周」，下篇不见不散。

💬 互动时间

你觉得新模型上线，最该测什么？

A. 代码生成能力

B. 推理和逻辑能力

C. 安全性和合规性

D. 速度和成本