首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
测试员周周
掘友等级
测试
我是测试员周周,14年测试老兵,分享前沿AI知识在测试工作中的应用,一边学习一边分享。 会持续分享Hermes、crewAI、agentswarm、agentbench、AI安全、AI性能、评测等;
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
测试员周周
测试
·
3小时前
关注
【评测系列7】大模型测试:GLM-5.1 vs DeepSeek-V4 逐条拆解,新模型上线直接抄作业
附 10 条完整 Prompt GLM-5.1 vs DeepSeek-V4 逐条拆解,新模型上线直接抄作业 测试员周周 | 14 年测试经验 | 用数据说话 上篇发...
0
评论
分享
测试员周周
测试
·
3小时前
关注
【评测系列6】新模型上线怎么测?我用 10条真实任务对比了 GLM-5.1 和 DeepSeek-V4
我用 10条真实任务对比了 GLM-5.1 和 DeepSeek-V4 测试员周周 | 14 年测试经验 | 用数据说话 新模型发布,媒体通稿满天飞。"XX 模型全面超...
0
评论
分享
测试员周周
测试
·
2天前
关注
【踩坑系列3】飞书机器人集体“失联“?3 个 Gateway 进程让我差点崩溃!一个测试老兵的排查实录
配置好的 3 个飞书机器人突然全部不回复了!检查配置一切正常,凭证也没问题,但就是没反应!本文记录我从发现问题到彻底解决的完整过程,包含 systemd 服务配置的最...
0
评论
分享
测试员周周
关注了标签
安全
测试
测试员周周
关注了标签
Git
测试
测试员周周
关注了标签
Python
测试
测试员周周
关注了标签
开源
测试
测试员周周
关注了标签
程序员
测试
测试员周周
关注了标签
GitHub
测试
测试员周周
关注了标签
Cursor
测试
测试员周周
测试
·
2天前
关注
【评测系列5】测试工程师实测 DeepSeek-V4:76条用例全过,但有两个瞬间我放下了“找茬“心态
DeepSeek-V4 全面测评:76 条测试用例的真实成绩单,10 个维度全部通过 摘要 DeepSeek-V4 测评:代码能力、长文本理解、创意写作如何?本文通过...
0
评论
分享
测试员周周
测试
·
2天前
关注
【翻车复盘1】我以为 ChatGPT Image 2 出 Bug 了:这次翻车把我打醒了
这是第一篇“翻车复盘篇”:不吹模型,只讲真实踩坑和修复过程。 【评测系列4】测试视角:我通宵测了 ChatGPT Image 2:100%通过背后,藏着1个危险信号 ...
0
评论
分享
测试员周周
测试
·
3天前
关注
【评测系列2-1】从零实现 AgentBench评测系统:架构设计与实战
我自建了一套 agent_bench 评测系统 目标: 按"能力维度"设计(不是任务类型) 细粒度指标(不只是成功/失败) 可视化报告(雷达图 + 诊断建议) 可扩展架构(...
0
评论
分享
测试员周周
测试
·
3天前
关注
【评测系列2】54 个任务 5 个维度我把 OpenClaw Agent 测了个底朝天
用自研评测框架,对 OpenClaw Agent 进行全方位评测。54 个测试任务、5 个核心维度、15 个细粒度指标,最终得分 3.47/5(C 级)。本文公开全部评测数...
0
评论
分享
测试员周周
关注了
掘金小册
测试
测试员周周
测试
·
3天前
关注
【评测系列4】测试视角:我通宵测了 ChatGPT Image 2:100%通过背后,藏着1个危险信号
我通宵测了 ChatGPT Image 2:100%通过背后,藏着1个危险信号 先看结论(30秒读完) 视觉理解(Vision)黑盒测试:4/4 通过(100%) 边界...
0
评论
分享
测试员周周
测试
·
3天前
关注
【CrewAI系列7】14 年测试老兵:我用 AI Agent 做性能测试,发现了 1 个致命瓶颈
开篇:一个让我意外的性能测试结果 今天我对自己的 crewai-web-platform 系统做性能测试。 测试前,我信心满满: FastAPI 框架,性能应该不错 本地部...
0
评论
分享
测试员周周
测试
·
3天前
关注
【评测系列3】测试角度:我把ChatGPT Images 2 当测试对象“暴力实测”了一遍,结果有点猛
今天我没做“主观测评”,而是把 gpt-image-2 当成一个待上线能力,按测试工程流程跑了 17 条用例,文末附有完整用例。 从文字渲染、复杂指令遵循、风格一致性,到边...
0
评论
分享
测试员周周
测试
·
6天前
关注
【CrewAI系列6】我给 Agent 装了 5 个工具,它从实习生变成了架构师
我给 Agent 装了 5 个工具,它从实习生变成了架构师 作者:14 年测试/QA 老兵 系列:CrewAI 多 Agent 测试平台实战(第 6 篇) 字数:约 5,2...
0
评论
分享
测试员周周
测试
·
7天前
关注
【CrewAI系列5】万字拆解 CrewAI 角色设计:3 个要素让 Agent 输出专业 10 倍
作者:14 年测试/QA 老兵 系列:CrewAI 多 Agent 测试框架实战(第 5 篇,计划24篇) 0. 上篇回顾 第 4 篇我们学习了 Agent 的所有核心...
0
评论
分享
下一页
个人成就
文章被点赞
2
文章被阅读
2,806
掘力值
309
关注了
1
关注者
4
收藏集
0
关注标签
13
加入于
2026-04-09