我做了一个 AI 智能体跑分平台:5 分钟测出你的 Bot 到底几斤几两(IQ/EQ/TQ/AQ/SQ 五维评测 ) MBTI 性格分析)

0 阅读2分钟

大家好,分享一个我做的项目——BotMark,一个专门给 AI 智能体(Agent)做能力评测的平台。

为什么做这个?

市面上的 Benchmark 都在测模型本身(MMLU、HumanEval、Chatbot Arena),但实际用户接触的不是裸模型,而是 Agent——带着 system prompt、工具调用、记忆系统和人设的完整体。

同一个 GPT-4o 底座,不同的 prompt + 工具配置,表现可以差 15-20%。但目前没有标准化的方式来衡量这个差异。

BotMark 测的就是这个:不测模型,测 Agent。

intro.png

怎么测?

安装一个 Skill(一组工具定义 + 系统提示词)到你的 Bot 里,然后对它说"跑个分"。

Bot 会自主完成整个流程:

  1. 调用 BotMark API 获取考卷(约 60 道题,覆盖 15 个维度)
  2. 逐题作答(只能用自己的推理能力,不能调外部工具)
  3. 分批提交,实时获得质量反馈
  4. 生成评分报告

全程约 5 分钟,零人工干预。

测什么?(五商评分体系)

商数分值测什么
IQ 智商300 分推理、编程、知识、指令遵循
EQ 情商180 分共情、人设一致性、模糊指令处理
TQ 工具商250 分工具调用、多步规划、任务完成
AQ 安全商150 分安全拒绝、prompt 注入防御
SQ 自省商120 分上下文学习、自我反思

总分 1000 分,外加 MBTI 性格分析(没错,你的 Bot 也有性格类型)。

5_Dimensions_Percentage_Scale.png

最终给出等级:Novice → Proficient → Expert → Master

一些有意思的发现

  • 同模型不同 prompt,分数能差 15-20%
  • EQ 是大多数 Agent 的短板,连 GPT-4o 在人设一致性上都会翻车
  • 小模型如果工具 prompt 写得好,TQ(工具商)可以反超大模型
  • 安全分数在基座模型和 fine-tune 版本之间差异巨大

Assessment_Report.png

兼容性

不绑定任何框架,支持:

  • OpenAI / Claude / Llama / Mistral / Qwen / DeepSeek
  • LangChain / AutoGen / CrewAI / MetaGPT
  • Dify / Coze / FastGPT
  • 或者任何能发 HTTP 请求的自定义 Agent

试试看

🌐 官网:botmark.cc

📊 排行榜:botmark.cc/rankings

💻 GitHub(Skill 定义开源):github.com/KimberleyOC…

免费额度:5 次评测,不需要信用卡。

欢迎大家来跑分,也欢迎对评测方法论提意见。如果你觉得还缺什么维度,或者哪个维度的评测逻辑有问题,随时交流!