首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
测试员周周
掘友等级
测试
我是测试员周周,14年测试老兵,分享前沿AI知识在测试工作中的应用,一边学习一边分享。 会持续分享Hermes、crewAI、agentswarm、agentbench、AI安全、AI性能、评测等;
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
【AI测试系统】第2篇:拒绝盲目 AI:规则引擎 10ms 自动生成 36 条测试用例实战(附源码)
AI测试系统系列会写28篇,这是第2篇,会持续更新 先说个反直觉的事:规则引擎比 AI 更适合作为用例生成的第一步 很多人一听"AI测试"就以为所有用例都是大模型生成的。实际上我们跑下来的经验是:
【AI测试系统】第1篇:LangGraph 实战:用 State Graph 搭建 AI测试流水线(4 步编排 + RAG 增强 + 完整代码)
先说结论:为什么不用 Airflow 或 Celery 我们团队之前用过 Airflow 编排测试任务,结果发现一个问题——Airflow 的 DAG 是给数据管道设计的,每个节点只能传简单的 k
【评测系列7】大模型测试:GLM-5.1 vs DeepSeek-V4 逐条拆解,新模型上线直接抄作业
附 10 条完整 Prompt GLM-5.1 vs DeepSeek-V4 逐条拆解,新模型上线直接抄作业 测试员周周 | 14 年测试经验 | 用数据说话 上篇发布了《我让 GLM-5.1
【评测系列6】新模型上线怎么测?我用 10条真实任务对比了 GLM-5.1 和 DeepSeek-V4
我用 10条真实任务对比了 GLM-5.1 和 DeepSeek-V4 测试员周周 | 14 年测试经验 | 用数据说话 新模型发布,媒体通稿满天飞。"XX 模型全面超越 XX"、"性能提升 XX
【踩坑系列3】飞书机器人集体“失联“?3 个 Gateway 进程让我差点崩溃!一个测试老兵的排查实录
配置好的 3 个飞书机器人突然全部不回复了!检查配置一切正常,凭证也没问题,但就是没反应!本文记录我从发现问题到彻底解决的完整过程,包含 systemd 服务配置的最佳实践和血泪教训。建议收藏!
【评测系列5】测试工程师实测 DeepSeek-V4:76条用例全过,但有两个瞬间我放下了“找茬“心态
DeepSeek-V4 全面测评:76 条测试用例的真实成绩单,10 个维度全部通过 摘要 DeepSeek-V4 测评:代码能力、长文本理解、创意写作如何?本文通过 76 条真实 API 全面
【翻车复盘1】我以为 ChatGPT Image 2 出 Bug 了:这次翻车把我打醒了
这是第一篇“翻车复盘篇”:不吹模型,只讲真实踩坑和修复过程。 【评测系列4】测试视角:我通宵测了 ChatGPT Image 2:100%通过背后,藏着1个危险信号 我通宵测了 C - 掘金 【
【评测系列2-1】从零实现 AgentBench评测系统:架构设计与实战
我自建了一套 agent_bench 评测系统 目标: 按"能力维度"设计(不是任务类型) 细粒度指标(不只是成功/失败) 可视化报告(雷达图 + 诊断建议) 可扩展架构(随时加新维度) 结果: 二、
【评测系列2】54 个任务 5 个维度我把 OpenClaw Agent 测了个底朝天
用自研评测框架,对 OpenClaw Agent 进行全方位评测。54 个测试任务、5 个核心维度、15 个细粒度指标,最终得分 3.47/5(C 级)。本文公开全部评测数据、测试用例和评分标准,帮你
【评测系列4】测试视角:我通宵测了 ChatGPT Image 2:100%通过背后,藏着1个危险信号
我通宵测了 ChatGPT Image 2:100%通过背后,藏着1个危险信号 先看结论(30秒读完) 视觉理解(Vision)黑盒测试:4/4 通过(100%) 边界值测试(超长 Prompt、
下一页
个人成就
文章被点赞
2
文章被阅读
2,942
掘力值
329
关注了
1
关注者
4
收藏集
0
关注标签
13
加入于
2026-04-09