我做了一个 AI 智能体跑分平台：5 分钟测出你的 Bot 到底几斤几两（IQ/EQ/TQ/AQ/SQ 五维评测 ) MBTI 性格分析）

大家好，分享一个我做的项目——BotMark，一个专门给 AI 智能体（Agent）做能力评测的平台。

为什么做这个？

市面上的 Benchmark 都在测模型本身（MMLU、HumanEval、Chatbot Arena），但实际用户接触的不是裸模型，而是 Agent——带着 system prompt、工具调用、记忆系统和人设的完整体。

同一个 GPT-4o 底座，不同的 prompt + 工具配置，表现可以差 15-20%。但目前没有标准化的方式来衡量这个差异。

BotMark 测的就是这个：不测模型，测 Agent。

安装一个 Skill（一组工具定义 + 系统提示词）到你的 Bot 里，然后对它说"跑个分"。

Bot 会自主完成整个流程：

全程约 5 分钟，零人工干预。

总分 1000 分，外加 MBTI 性格分析（没错，你的 Bot 也有性格类型）。

最终给出等级：Novice → Proficient → Expert → Master

不绑定任何框架，支持：

🌐 官网：botmark.cc

💻 GitHub（Skill 定义开源）：github.com/KimberleyOC…

免费额度：5 次评测，不需要信用卡。

欢迎大家来跑分，也欢迎对评测方法论提意见。如果你觉得还缺什么维度，或者哪个维度的评测逻辑有问题，随时交流！