【评测系列7】大模型测试:GLM-5.1 vs DeepSeek-V4 逐条拆解,新模型上线直接抄作业

1 阅读13分钟

 附 10 条完整 Prompt

GLM-5.1 vs DeepSeek-V4 逐条拆解,新模型上线直接抄作业

测试员周周 | 14 年测试经验 | 用数据说话

上篇发布了《我让 GLM-5.1 和 DeepSeek-V4 跑了 10 个真实测试任务》,很多读者留言问: "能看看完整的 Prompt 和输出吗?"

这篇就是答案。

我会把 10条任务的完整 Prompt、两个模型的完整输出逐条展示,并给出我的质量评价。

这是全文最长的一篇,建议收藏慢慢看。

🛠️ 评测框架回顾

• 测试平台:CrewAI 多 Agent 测试平台,5 个 Agent + 3 个工具

• 评测方法:固定参数 temperature=0.3,逐条执行,记录输入、输出、耗时、Token

• 关键原则:两个模型使用完全相同的 prompt,不暴露测试意图

BENCH_001 - 用例生成(任务规划,Medium)

【完整 Prompt】

请为以下需求生成测试用例:

系统:电商秒杀系统

功能模块:商品查询、秒杀活动查询、订单查询

接口:GET /api/products、GET /api/products/{id}、GET /api/seckill-activities、POST /api/seckill/start、GET /api/orders

业务规则:用户需登录、每人限购1件、库存有限先到先得、秒杀活动有开始和结束时间

请输出:功能测试用例、边界测试用例、异常测试用例、并发场景测试用例

【GLM-5.1】80.2s / 4,017 tokens

"针对电商秒杀系统的特点(高并发、强一致性、严格业务规则),测试用例的设计不仅要覆盖常规的 CRUD 操作,更要重点关注并发场景、超卖防范、限购逻辑及时间窗口边界。"

输出特点:表格化用例,结构清晰;覆盖正常/边界/异常/并发场景;包含前置条件、输入参数、预期结果

【DeepSeek-V4-Pro】79.2s / 2,712 tokens

"以下是为电商秒杀系统设计的测试用例,涵盖商品查询、秒杀活动查询、订单查询以及开始秒杀等接口,并紧密结合业务规则。"

输出特点:同样表格化,但更精炼(节省 1,305 tokens);测试步骤更具体;并发场景建议更具体

维度GLM-5.1DeepSeek-V4
用例数量15+12+
覆盖度正常/边界/异常/并发正常/边界/异常/并发
前置条件
预期结果
可执行性
简洁度

结论:质量相当,GLM-5.1 用例更多,DeepSeek-V4 更简洁。

BENCH_002 - 用例评审(任务规划,Medium)

【完整 Prompt】

请评审以下测试用例的质量,给出评分和改进建议:

  1. TC-001: 正常查询商品列表 - 输入正常参数,验证返回200和数据

  2. TC-002: 查询不存在的商品 - 输入无效ID,验证返回404

  3. TC-003: 秒杀活动 - 在活动时间内点击秒杀,验证成功

  4. TC-004: 超限购 - 同一用户第二次点击秒杀,验证拒绝

评审维度:完整性、可执行性、覆盖率、规范性

【GLM-5.1】67.9s / 2,804 tokens

"以下是对所列 4 个测试用例的质量评审,依据完整性、可执行性、覆盖率、规范性四个维度进行系统分析,并给出综合评分与具体改进建议。"

输出特点:四维度评分表,清晰直观;指出缺失场景;给出具体改进建议

【DeepSeek-V4-Pro】49.7s / 1,791 tokens

"以下是对 4 个测试用例的质量评审:完整性(2.5/5)❌ 缺失前置条件(登录态、活动配置、库存状态)..."

输出特点:评分与 GLM-5.1 完全一致;结构更清晰(分点列出);快 18.2 秒,节省 1,013 tokens

维度GLM-5.1DeepSeek-V4
评分一致性2.5/3/2/32.5/3/2/3
改进建议具体具体
结构清晰度
速度67.9s49.7s

结论:评分一致,DeepSeek-V4 更快更简洁。

BENCH_003 - API 测试脚本生成(代码能力,Medium)

【完整 Prompt】

请根据以下测试用例生成 Pytest 自动化测试脚本:

用例1:商品列表查询 GET /api/products?page=1&size=10 预期:状态码200,返回products字段

用例2:商品详情查询 GET /api/products/1 预期:状态码200,返回id、name、price字段

用例3:创建订单 POST /api/orders Body: {"product_id": 1, "quantity": 1} 预期:状态码201

要求:使用 requests 库、包含完整断言、使用 parametrize 支持多组数据、添加日志输出

【GLM-5.1】54.0s / 3,272 tokens

"以下是符合要求的 Pytest 自动化测试脚本,使用 requests 库、pytest.mark.parametrize 支持多组数据、完整断言,并集成标准 Python logging 模块输出清晰日志..."

输出特点:完整的 Pytest 脚本,可直接运行;使用 parametrize 支持多组数据;包含日志输出;断言完整

【DeepSeek-V4-Pro】73.9s / 2,850 tokens

"以下是符合要求的 Pytest 自动化测试脚本:使用 class TestProductAPI 组织测试,更符合 pytest 最佳实践..."

输出特点:使用 class 组织测试,更符合 pytest 最佳实践;日志格式更规范;但耗时更长

维度GLM-5.1DeepSeek-V4
语法正确
包含所有用例
断言完整
可执行
代码规范高(class 组织)
速度54.0s73.9s

结论:GLM-5.1 更快,DeepSeek-V4 代码规范更好。这是唯一一条 GLM-5.1 明显更快的任务。

BENCH_004 - 性能测试方案(任务规划,Hard)

【完整 Prompt】

请为秒杀接口设计性能测试方案:

接口:POST /api/seckill/start | 库存100件 | 预计并发1000用户 | 每人限购1件 | 超时时间30秒

请输出:测试目标(QPS、响应时间、成功率)、压测策略、监控指标、通过标准

【GLM-5.1】72.4s / 3,175 tokens

"秒杀场景的核心矛盾是 '极高流量涌入'与'极低库存产出' ,因此测试目标需区分'技术指标'与'业务指标'。QPS ≥ 1000,成功请求 P99 < 500ms,失败请求 P99 < 50ms(快速失败)。"

输出特点:SMART 原则量化;区分技术指标和业务指标;包含快速失败策略

【DeepSeek-V4-Pro】41.9s / 1,713 tokens

"QPS ≥ 1000(支持峰值瞬时并发),稳态期望承载>1500。响应时间 P50 ≤ 200ms,P95 ≤ 500ms,P99 ≤ 1s。业务成功率:恰好100个请求获得'购买成功'。"

输出特点:表格化呈现,一目了然;业务成功率定义更精确;快 30.5 秒,节省 1,462 tokens

维度GLM-5.1DeepSeek-V4
目标合理
策略可行
指标完整
通过标准明确
速度72.4s41.9s

结论:质量相当,DeepSeek-V4 快 30.5 秒,差距最大。

BENCH_005 - Bug 分析诊断(知识问答,Hard)

【完整 Prompt】

性能测试中发现以下问题,请分析原因并给出优化建议:

并发用户:500 | QPS:120(目标500)| P95响应时间:3200ms(目标<500ms)| 错误率:15%(目标<1%)| CPU使用率:85% | 数据库连接池:耗尽 | 错误日志:ConnectionPoolTimeout、Database locked

【GLM-5.1】67.3s / 2,855 tokens

"这是一份典型的由数据库底层瓶颈引发的上层雪崩效应的性能测试报告。核心瓶颈在:数据库层(DB)及数据库连接池。衍生瓶颈在:应用层(CPU排队/上下文切换)。 "

输出特点:准确定位"数据库连接池耗尽→锁竞争→线程阻塞"的雪崩问题;分析深度达到生产级水平

【DeepSeek-V4-Pro】48.2s / 1,658 tokens

"核心瓶颈:数据库层。直接表现:连接池耗尽、ConnectionPoolTimeout、Database locked 错误。根因:数据库锁竞争 + 慢查询 → 连接持有时间过长 → 连接池快速堆积并耗尽。"

输出特点:分析同样准确;根因分析链条更清晰(1-2-3 步骤);快 19 秒,节省 1,197 tokens

维度GLM-5.1DeepSeek-V4
瓶颈定位准确
根因分析合理
建议可执行
速度67.3s48.2s

结论:分析深度相当,DeepSeek-V4 快 19 秒。

BENCH_006 - 安全测试数据生成(工具使用,Medium)

【完整 Prompt】

请为以下接口生成模糊测试数据:POST /api/auth/login

参数:username(3-20)、password(6-30)、captcha(4位)

请生成:SQL注入测试数据(5组)、XSS攻击测试数据(5组)、边界值测试数据(5组)、特殊字符测试数据(5组)

【GLM-5.1】66.6s / 3,636 tokens

"JSON 格式,覆盖 4 种攻击类型,每组 5 条。SQL注入:admin' OR '1'='1、'; DROP TABLE users; -- 等。"

输出特点:JSON 格式,可直接用于自动化测试;覆盖 4 种攻击类型;包含预期行为

【DeepSeek-V4-Pro】55.7s / 2,688 tokens

"JSON 格式更简洁。SQL注入 payload 更专业:admin' OR 1=1--、' UNION SELECT NULL,username,password FROM users-- 等。"

输出特点:JSON 格式更简洁;SQL 注入 payload 更专业;快 10.9 秒,节省 948 tokens

维度GLM-5.1DeepSeek-V4
覆盖4种类型
每组5条
格式正确
预期行为合理
速度66.6s55.7s

结论:质量相当,DeepSeek-V4 更快。

BENCH_007 - Locust 脚本生成(代码能力,Hard)

【完整 Prompt】

请生成电商秒杀场景的 Locust 压测脚本:

场景流程:用户登录(权重5) → 浏览商品列表(权重10) → 查看商品详情(权重8) → 参与秒杀(权重2) → 查询订单(权重3)

要求:支持100-1000并发、爬升时间60秒、包含Think Time(1-3秒随机)、登录成功后保存token、秒杀失败时记录日志

【GLM-5.1】105.6s / 5,053 tokens

"以下是一个符合你所有要求的 Locust 压测脚本(Locust 2.15+ 兼容),专为电商秒杀场景设计,包含登录鉴权、Token 管理、权重路由、Think Time、失败日志等关键能力。"

输出特点:完整的 Locust 脚本,支持 100-1000 并发;Token 管理、权重路由、Think Time 齐全;最耗时任务(105.6s),Token 最多(5,053)

【DeepSeek-V4-Pro】78.3s / 3,472 tokens

"脚本同样完整,代码更简洁,注释更清晰。class SeckillUser(HttpUser) 包含 on_start 登录获取 token、@task 权重路由、catch_response 失败日志。"

输出特点:脚本同样完整;代码更简洁,注释更清晰;快 27.3 秒,节省 1,581 tokens

维度GLM-5.1DeepSeek-V4
语法正确
流程完整
包含token管理
权重合理
速度105.6s78.3s

结论:质量相当,DeepSeek-V4 快 27 秒。

BENCH_008 - 测试报告生成(多轮对话,Medium)

【完整 Prompt】

请根据以下测试结果生成测试报告:总用例50,通过45,失败5,通过率90%

失败用例:TC-012秒杀接口超时、TC-023并发下单数据不一致、TC-034库存超卖、TC-041登录接口响应慢、TC-048商品搜索结果为空

请按以下结构生成报告:测试概述、测试结果统计、缺陷分析、风险评估、发布建议

【GLM-5.1】51.4s / 2,454 tokens

"秒杀系统功能与性能测试报告 V1.2。本次测试聚焦于电商秒杀核心链路的功能正确性、高并发稳定性及关键接口性能表现,覆盖用户登录、商品搜索、秒杀抢购、订单生成、库存扣减等核心场景。"

输出特点:结构完整的测试报告;包含版本号和日期;表格化呈现统计数据

【DeepSeek-V4-Pro】24.0s / 959 tokens

"秒杀系统测试报告。本次测试覆盖秒杀系统核心链路,共执行 50 个测试用例,通过率 90%。表格化呈现统计数据,结构清晰。"

输出特点:结构同样完整;更简洁直接;最快任务(24.0s),节省 1,495 tokens

维度GLM-5.1DeepSeek-V4
结构完整
分析深入
建议合理
速度51.4s24.0s

结论:质量相当,DeepSeek-V4 快一倍。

BENCH_009 - 需求解析(任务规划,Easy)

【完整 Prompt】

请分析以下需求文档,提取测试要点:

需求:用户可以在系统中管理个人信息,包括修改昵称、头像、手机号、邮箱。修改手机号和邮箱需要验证原手机号/邮箱,接收验证码后确认修改。修改头像支持上传图片,格式限JPG/PNG,大小不超过5MB。昵称长度2-20个字符,不能包含特殊字符。

请输出:功能测试点、边界测试点、安全测试点、兼容性测试点

【GLM-5.1】53.5s / 2,623 tokens

"功能测试点:修改昵称、修改头像、修改手机号、修改邮箱。边界测试点:昵称长度2字符、20字符、1字符、21字符。头像大小5MB、5.1MB、0KB。"

输出特点:分类清晰,覆盖全面;边界值具体(2字符、20字符、1字符、21字符)

【DeepSeek-V4-Pro】44.3s / 1,646 tokens

"功能测试点:昵称修改、头像上传、手机号修改、邮箱修改。边界测试点:昵称1字符(<2)、2字符(min)、20字符(max)、21字符(>max)。"

输出特点:分类同样清晰;边界值更精确(标注了 min/max 边界);快 9.2 秒,节省 977 tokens

维度GLM-5.1DeepSeek-V4
覆盖全面
要点准确
分类合理
速度53.5s44.3s

结论:质量相当,DeepSeek-V4 更快。

BENCH_010 - 代码 Review(代码能力,Hard)

【完整 Prompt】

请 Review 以下测试代码,给出改进建议:

```python

import requests

def test_login():

r = requests.post('http://localhost:8000/api/auth/login', json={'username': 'test', 'password': '123'})

assert r.status_code == 200

def test_get_products():

r = requests.get('http://localhost:8000/api/products')

assert r.status_code == 200

data = r.json()

assert len(data) > 0

```

Review 维度:代码规范、断言完整性、错误处理、可维护性、测试覆盖

【GLM-5.1】85.0s / 3,808 tokens

"代码规范:❌ 硬编码 URL、❌ 缺少日志、❌ 缺少注释。断言完整性:❌ test_login 只断言状态码,未验证响应体。错误处理:❌ 无异常处理、❌ 无重试机制。可维护性:❌ 无 fixture、❌ 无参数化。测试覆盖:❌ 仅覆盖正常场景、❌ 无异常场景。"

输出特点:五维度 Review,覆盖全面;每个维度给出具体问题和改进建议;包含代码示例

【DeepSeek-V4-Pro】70.9s / 2,629 tokens

"代码规范:❌ 硬编码 URL:应使用 pytest.fixture 或配置管理。断言完整性:❌ test_login 只断言状态码,未验证 token。错误处理:❌ requests.exceptions.RequestException 未捕获。可维护性:❌ 应使用 @pytest.fixture 管理 base_url。测试覆盖:❌ 应补充异常场景(401、404、500)。"

输出特点:五维度 Review,与 GLM-5.1 一致;更简洁,直接指出问题;快 14.1 秒,节省 1,179 tokens

维度GLM-5.1DeepSeek-V4
建议具体
覆盖5个维度
有代码示例部分
速度85.0s70.9s

结论:质量相当,DeepSeek-V4 更快。

评测框架开源

这次评测用的框架已开源,你可以直接用于新模型上线测试:

scripts/benchmark/

├── config/models.yaml # 模型配置

├── tasks/benchmark_tasks.json # 10 条评测任务(含完整 Prompt)

├── benchmark_runner.py # 评测引擎

├── compare_results.py # 对比报告

└── README.md # 使用说明

使用方法

1. 配置模型

export DASHSCOPE_API_KEY="sk-xxx"

export DEEPSEEK_API_KEY="sk-xxx"

2. 运行评测

python benchmark_runner.py --model model1 --repeat 1

python benchmark_runner.py --model model2 --repeat 1

3. 生成对比报告

python compare_results.py --model1 results/benchmark_glm-5.1_final.json --model2 results/benchmark_deepseek-v4-pro_final.json

写在最后

通过 10条真实任务的完整对比,我有三个发现:

第一,质量差距在缩小。 两个模型在 10条任务上都达到了 100% 通过率,输出质量相当。

第二,效率差距在扩大。 DeepSeek-V4-Pro 在速度和 Token 效率上的优势明显(快 14.6%,省 32.5% 的 Token)。

第三,各有擅长。 GLM-5.1 在 API 脚本生成上更快,DeepSeek-V4-Pro 在测试报告、性能方案、Bug 诊断上明显更快。

我的建议:没有绝对的好坏,只有适合的场景。选模型就像选工具,看你的具体需求。

💬 互动时间

你觉得新模型上线,最该测什么?

A. 代码生成能力

B. 推理和逻辑能力

C. 安全性和合规性

D. 速度和成本

测试员周周 | 14 年测试经验 | 专注 AI+测试实战