折腾了几个月，我把 Claude Code 改成了一个能自动选专家的开发平台折腾了几个月，我把 Claude Code

折腾了几个月，我把 Claude Code 改成了一个能自动选专家的开发平台

标签: Claude Code / AI编程 / Agent / MCP / Cursor / Copilot / OpenClaw / 龙虾 / DeepSeek / Qwen / Skill / prompt engineering

起因

Claude Code 从去年 5 月 GA 之后我就一直在用，到现在快一年了。用着用着发现一个规律 — 我 80% 的时间不是在写代码，而是在调 Prompt。

写 React 组件要先告诉它"你是一个资深前端工程师，请用 TypeScript 严格模式..."。做安全审计又要换一套 Prompt。写商业计划书再换一套。每次都得从头教它"你是谁"。

试过 Cursor，IDE 体验确实好，但它骨子里还是代码补全，遇到"帮我做安全审计"或者"写个商业计划书"就不灵了。Copilot 同理。

最近 OpenClaw（社区叫它"龙虾"）火得一塌糊涂，25 万星。它走的是"持久化 AI 助手"的路线，能 24 小时在线、记住上下文、接入飞书和 Discord。思路很好，但它解决的是"AI 怎么一直在线"的问题，我想解决的是另一个问题 — AI 怎么知道该用哪个专家来干活。

于是就有了 Bookworm。

所以这东西干了什么

核心就一件事: 你说人话，它自动匹配最合适的技能来干活。

比如你输入"帮我写个 React 登录组件"，它不是像原生 Claude Code 那样直接回答，而是先判断这是一个前端任务、中等复杂度，然后路由到一个专门做前端的技能（里面预置了 TypeScript 严格模式、组件最佳实践、可访问性检查这些上下文）。

再比如"从零搭建一个 SaaS 产品"，它判断这是个复杂任务，会启动一个编排器，拆成数据库设计、后端 API、前端页面、测试用例这些子任务，分派给不同的智能体去干，最后汇总验收。

我在终端里实际的样子大概是这样:

> 帮我审计一下这个项目的安全性

[BWR] 置信度 100% | 意图: 安全,审计 | 复杂度: complex
├─ 主路由: security-expert
├─ 编排: orchestrator → 多智能体协作
└─ 执行中...

✓ red-team-attacker: 发现 3 个攻击向量
✓ red-team-logic: 发现 1 个竞态条件
✓ security-hardener: 已生成修复方案

中间那个 [BWR] 就是路由引擎的输出，告诉你它怎么决策的。我觉得这个透明度很重要 — 你能看到 AI 在想什么，不是黑箱。

目前做到什么程度

数据就直说:

96 个技能: 覆盖前端/后端/架构/DevOps/安全/产品/商业/内容这些方向，每个技能是一套预优化的上下文+规则
18 个智能体: 分三档 — Opus 做需要深度推理的（安全红队、代码审查），Sonnet 做日常开发，Haiku 做快速搜索
路由准确率约 93%: 有 54 条消歧规则，比如"写测试"走测试专家不走 QA，"画图"走图表专家不走设计师
34 个 MCP 集成: GitHub、Jira、Playwright、数据库、桌面自动化都接上了

安全这块我花的精力最多。搞了个六层防线 + 一套 AI 宪法（说白了就是硬编码的底线规则），比如绝对不准在日志里打印 API Key、绝对不准 eval()、改金额逻辑必须显式确认。还有两个红队智能体定期从攻击者角度找漏洞。

和其他工具的关系

经常被问到"和 Cursor / Copilot / Devin 比怎么样"，我的看法是它们解决不同的问题:

Cursor / Copilot: 核心是 IDE 内的代码补全和对话，写代码很爽，但它们不做安全审计、不写商业计划、不跑 QA 全链路测试
Devin: 思路类似（多 Agent），但它是独立平台，$500/月，我这个建在 Claude Code 上，用你自己的 API 订阅就行
OpenClaw (龙虾): 解决"AI 怎么持久在线"的问题，能接飞书/Discord 24 小时待命。Bookworm 解决的是"AI 怎么自动选专家" — 两者切入点不同，理论上可以互补
GPT / DeepSeek / Qwen: 这些是底层模型，Bookworm 目前只跑在 Claude 上（因为 Claude Code 的工具调用能力目前最强），但技能编排的思路是通用的

几个我自己用得最多的场景

1. 发布工作流

输入 /ship，它会自动: 跑测试 → 代码审查 → 更新版本号 → 生成 CHANGELOG → 创建 PR。一条命令搞定以前要敲十几条命令的事。

2. 出了 Bug 不知道原因

输入 /investigate，它会系统化地排查: 先复现 → 读错误日志 → 定位根因 → 提出假设 → 验证修复。铁律是"不找到根因就不出修复方案"，不会瞎猜。

3. 安全审计

告诉它"红队测试一下这个项目"，两个 Opus 级别的智能体会从攻击者角度找漏洞: 一个试编码绕过、路径混淆、注入攻击，另一个找逻辑漏洞和竞态条件。找到之后第三个智能体自动出修复方案。

4. 不止写代码的事

这可能是和纯编程工具最大的区别。我经常用它写商业计划书、做竞品分析、做定价策略、甚至审查合同条款。每个领域都有专门的技能，不用自己从头写 Prompt。

技术栈简单说一下

不用装额外的东西。它本质上是 Claude Code 的配置系统:

技能是 Markdown 文件 (SKILL.md)，里面定义触发词、上下文、约束规则
智能体是 Claude Code 的 Agent 子进程，每个有独立上下文窗口
路由引擎跑在 Claude Code 的 hooks 机制上 (UserPromptSubmit 钩子)
MCP 集成走的 Claude Code 原生协议
安全规则在 settings.json 的 hooks 里注册

所以它不是一个独立应用，是一套"Claude Code 的高级配置"。好处是零额外依赖，坏处是目前只能跑在 Claude Code 上。

后续计划

老实说现在还是个人项目阶段，很多地方还不够完善。接下来想做的:

社区版技能贡献机制（让大家一起贡献领域技能）
更好的可视化（目前全是终端输出，想做个 Web Dashboard）
探索接入其他模型底座的可能性

如果你也在用 Claude Code，或者在折腾 AI 编程提效这个方向，欢迎交流。

产品详情: bookworm.letcareme.com/about/ 产品手册: bookworm.letcareme.com/about/manua… 使用场景: bookworm.letcareme.com/about/cases…