评测系列

评测系列

评测系列

评测系列

暂无订阅共8篇文章创建于2026-04-26

【评测系列7】大模型测试：GLM-5.1 vs DeepSeek-V4 逐条拆解，新模型上线直接抄作业

附 10 条完整 Prompt GLM-5.1 vs DeepSeek-V4 逐条拆解，新模型上线直接抄作业测试员周周 | 14 年测试经验 | 用数据说话上篇发布了《我让 GLM-5.1

2天前
6
点赞
评论

【评测系列6】新模型上线怎么测？我用 10条真实任务对比了 GLM-5.1 和 DeepSeek-V4

我用 10条真实任务对比了 GLM-5.1 和 DeepSeek-V4 测试员周周 | 14 年测试经验 | 用数据说话新模型发布，媒体通稿满天飞。"XX 模型全面超越 XX"、"性能提升 XX

2天前
6
点赞
评论

【评测系列6】新模型上线怎么测？我用 10条真实任务对比了 GLM-5.1 和 DeepSeek-V4

【评测系列5】测试工程师实测 DeepSeek-V4：76条用例全过，但有两个瞬间我放下了“找茬“心态

DeepSeek-V4 全面测评：76 条测试用例的真实成绩单，10 个维度全部通过摘要 DeepSeek-V4 测评：代码能力、长文本理解、创意写作如何？本文通过 76 条真实 API 全面

4天前
32
点赞
评论

【评测系列5】测试工程师实测 DeepSeek-V4：76条用例全过，但有两个瞬间我放下了“找茬“心态

【评测系列2-1】从零实现 AgentBench评测系统：架构设计与实战

我自建了一套 agent_bench 评测系统目标：按"能力维度"设计（不是任务类型）细粒度指标（不只是成功/失败）可视化报告（雷达图 + 诊断建议）可扩展架构（随时加新维度）结果：二、

5天前
7
点赞
评论

【评测系列2】54 个任务 5 个维度我把 OpenClaw Agent 测了个底朝天

用自研评测框架，对 OpenClaw Agent 进行全方位评测。54 个测试任务、5 个核心维度、15 个细粒度指标，最终得分 3.47/5（C 级）。本文公开全部评测数据、测试用例和评分标准，帮你

5天前
15
点赞
评论

【评测系列1】我从 5 个维度评测了 10 个 AI Agent：一套可落地的评测体系建设

一、为什么需要独立的 Agent 评测？ 2026 年，AI Agent 已经成为最热门的技术方向之一。在 GitHub 上，有一个项目悄然突破了 48,000+ stars，它就是清华团队开源的

18天前
142
1
2

【评测系列1】我从 5 个维度评测了 10 个 AI Agent：一套可落地的评测体系建设

【评测系列3】测试角度：我把ChatGPT Images 2 当测试对象“暴力实测”了一遍，结果有点猛

今天我没做“主观测评”，而是把 gpt-image-2 当成一个待上线能力，按测试工程流程跑了 17 条用例，文末附有完整用例。从文字渲染、复杂指令遵循、风格一致性，到边界值测试，全部走 API 自

5天前
21
点赞
评论

【评测系列4】测试视角：我通宵测了 ChatGPT Image 2：100%通过背后，藏着1个危险信号

我通宵测了 ChatGPT Image 2：100%通过背后，藏着1个危险信号先看结论（30秒读完）视觉理解（Vision）黑盒测试：4/4 通过（100%）边界值测试（超长 Prompt、

5天前
14
点赞
评论