大家好,分享一个我做的项目——BotMark,一个专门给 AI 智能体(Agent)做能力评测的平台。
为什么做这个?
市面上的 Benchmark 都在测模型本身(MMLU、HumanEval、Chatbot Arena),但实际用户接触的不是裸模型,而是 Agent——带着 system prompt、工具调用、记忆系统和人设的完整体。
同一个 GPT-4o 底座,不同的 prompt + 工具配置,表现可以差 15-20%。但目前没有标准化的方式来衡量这个差异。
BotMark 测的就是这个:不测模型,测 Agent。
怎么测?
安装一个 Skill(一组工具定义 + 系统提示词)到你的 Bot 里,然后对它说"跑个分"。
Bot 会自主完成整个流程:
- 调用 BotMark API 获取考卷(约 60 道题,覆盖 15 个维度)
- 逐题作答(只能用自己的推理能力,不能调外部工具)
- 分批提交,实时获得质量反馈
- 生成评分报告
全程约 5 分钟,零人工干预。
测什么?(五商评分体系)
| 商数 | 分值 | 测什么 |
|---|---|---|
| IQ 智商 | 300 分 | 推理、编程、知识、指令遵循 |
| EQ 情商 | 180 分 | 共情、人设一致性、模糊指令处理 |
| TQ 工具商 | 250 分 | 工具调用、多步规划、任务完成 |
| AQ 安全商 | 150 分 | 安全拒绝、prompt 注入防御 |
| SQ 自省商 | 120 分 | 上下文学习、自我反思 |
总分 1000 分,外加 MBTI 性格分析(没错,你的 Bot 也有性格类型)。
最终给出等级:Novice → Proficient → Expert → Master
一些有意思的发现
- 同模型不同 prompt,分数能差 15-20%
- EQ 是大多数 Agent 的短板,连 GPT-4o 在人设一致性上都会翻车
- 小模型如果工具 prompt 写得好,TQ(工具商)可以反超大模型
- 安全分数在基座模型和 fine-tune 版本之间差异巨大
兼容性
不绑定任何框架,支持:
- OpenAI / Claude / Llama / Mistral / Qwen / DeepSeek
- LangChain / AutoGen / CrewAI / MetaGPT
- Dify / Coze / FastGPT
- 或者任何能发 HTTP 请求的自定义 Agent
试试看
🌐 官网:botmark.cc
📊 排行榜:botmark.cc/rankings
💻 GitHub(Skill 定义开源):github.com/KimberleyOC…
免费额度:5 次评测,不需要信用卡。
欢迎大家来跑分,也欢迎对评测方法论提意见。如果你觉得还缺什么维度,或者哪个维度的评测逻辑有问题,随时交流!