首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
评测系列
测试员周周
创建于2026-04-26
订阅专栏
评测系列
暂无订阅
共8篇文章
创建于2026-04-26
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
【评测系列7】大模型测试:GLM-5.1 vs DeepSeek-V4 逐条拆解,新模型上线直接抄作业
附 10 条完整 Prompt GLM-5.1 vs DeepSeek-V4 逐条拆解,新模型上线直接抄作业 测试员周周 | 14 年测试经验 | 用数据说话 上篇发布了《我让 GLM-5.1
【评测系列6】新模型上线怎么测?我用 10条真实任务对比了 GLM-5.1 和 DeepSeek-V4
我用 10条真实任务对比了 GLM-5.1 和 DeepSeek-V4 测试员周周 | 14 年测试经验 | 用数据说话 新模型发布,媒体通稿满天飞。"XX 模型全面超越 XX"、"性能提升 XX
【评测系列5】测试工程师实测 DeepSeek-V4:76条用例全过,但有两个瞬间我放下了“找茬“心态
DeepSeek-V4 全面测评:76 条测试用例的真实成绩单,10 个维度全部通过 摘要 DeepSeek-V4 测评:代码能力、长文本理解、创意写作如何?本文通过 76 条真实 API 全面
【评测系列2-1】从零实现 AgentBench评测系统:架构设计与实战
我自建了一套 agent_bench 评测系统 目标: 按"能力维度"设计(不是任务类型) 细粒度指标(不只是成功/失败) 可视化报告(雷达图 + 诊断建议) 可扩展架构(随时加新维度) 结果: 二、
【评测系列2】54 个任务 5 个维度我把 OpenClaw Agent 测了个底朝天
用自研评测框架,对 OpenClaw Agent 进行全方位评测。54 个测试任务、5 个核心维度、15 个细粒度指标,最终得分 3.47/5(C 级)。本文公开全部评测数据、测试用例和评分标准,帮你
【评测系列1】我从 5 个维度评测了 10 个 AI Agent:一套可落地的评测体系建设
一、为什么需要独立的 Agent 评测? 2026 年,AI Agent 已经成为最热门的技术方向之一。 在 GitHub 上,有一个项目悄然突破了 48,000+ stars,它就是清华团队开源的
【评测系列3】测试角度:我把ChatGPT Images 2 当测试对象“暴力实测”了一遍,结果有点猛
今天我没做“主观测评”,而是把 gpt-image-2 当成一个待上线能力,按测试工程流程跑了 17 条用例,文末附有完整用例。 从文字渲染、复杂指令遵循、风格一致性,到边界值测试,全部走 API 自
【评测系列4】测试视角:我通宵测了 ChatGPT Image 2:100%通过背后,藏着1个危险信号
我通宵测了 ChatGPT Image 2:100%通过背后,藏着1个危险信号 先看结论(30秒读完) 视觉理解(Vision)黑盒测试:4/4 通过(100%) 边界值测试(超长 Prompt、