折腾了几个月,我把 Claude Code 改成了一个能自动选专家的开发平台
标签: Claude Code / AI编程 / Agent / MCP / Cursor / Copilot / OpenClaw / 龙虾 / DeepSeek / Qwen / Skill / prompt engineering
起因
Claude Code 从去年 5 月 GA 之后我就一直在用,到现在快一年了。用着用着发现一个规律 — 我 80% 的时间不是在写代码,而是在调 Prompt。
写 React 组件要先告诉它"你是一个资深前端工程师,请用 TypeScript 严格模式..."。做安全审计又要换一套 Prompt。写商业计划书再换一套。每次都得从头教它"你是谁"。
试过 Cursor,IDE 体验确实好,但它骨子里还是代码补全,遇到"帮我做安全审计"或者"写个商业计划书"就不灵了。Copilot 同理。
最近 OpenClaw(社区叫它"龙虾")火得一塌糊涂,25 万星。它走的是"持久化 AI 助手"的路线,能 24 小时在线、记住上下文、接入飞书和 Discord。思路很好,但它解决的是"AI 怎么一直在线"的问题,我想解决的是另一个问题 — AI 怎么知道该用哪个专家来干活。
于是就有了 Bookworm。
所以这东西干了什么
核心就一件事: 你说人话,它自动匹配最合适的技能来干活。
比如你输入"帮我写个 React 登录组件",它不是像原生 Claude Code 那样直接回答,而是先判断这是一个前端任务、中等复杂度,然后路由到一个专门做前端的技能(里面预置了 TypeScript 严格模式、组件最佳实践、可访问性检查这些上下文)。
再比如"从零搭建一个 SaaS 产品",它判断这是个复杂任务,会启动一个编排器,拆成数据库设计、后端 API、前端页面、测试用例这些子任务,分派给不同的智能体去干,最后汇总验收。
我在终端里实际的样子大概是这样:
> 帮我审计一下这个项目的安全性
[BWR] 置信度 100% | 意图: 安全,审计 | 复杂度: complex
├─ 主路由: security-expert
├─ 编排: orchestrator → 多智能体协作
└─ 执行中...
✓ red-team-attacker: 发现 3 个攻击向量
✓ red-team-logic: 发现 1 个竞态条件
✓ security-hardener: 已生成修复方案
中间那个 [BWR] 就是路由引擎的输出,告诉你它怎么决策的。我觉得这个透明度很重要 — 你能看到 AI 在想什么,不是黑箱。
目前做到什么程度
数据就直说:
- 96 个技能: 覆盖前端/后端/架构/DevOps/安全/产品/商业/内容这些方向,每个技能是一套预优化的上下文+规则
- 18 个智能体: 分三档 — Opus 做需要深度推理的(安全红队、代码审查),Sonnet 做日常开发,Haiku 做快速搜索
- 路由准确率约 93%: 有 54 条消歧规则,比如"写测试"走测试专家不走 QA,"画图"走图表专家不走设计师
- 34 个 MCP 集成: GitHub、Jira、Playwright、数据库、桌面自动化都接上了
安全这块我花的精力最多。搞了个六层防线 + 一套 AI 宪法(说白了就是硬编码的底线规则),比如绝对不准在日志里打印 API Key、绝对不准 eval()、改金额逻辑必须显式确认。还有两个红队智能体定期从攻击者角度找漏洞。
和其他工具的关系
经常被问到"和 Cursor / Copilot / Devin 比怎么样",我的看法是它们解决不同的问题:
- Cursor / Copilot: 核心是 IDE 内的代码补全和对话,写代码很爽,但它们不做安全审计、不写商业计划、不跑 QA 全链路测试
- Devin: 思路类似(多 Agent),但它是独立平台,$500/月,我这个建在 Claude Code 上,用你自己的 API 订阅就行
- OpenClaw (龙虾): 解决"AI 怎么持久在线"的问题,能接飞书/Discord 24 小时待命。Bookworm 解决的是"AI 怎么自动选专家" — 两者切入点不同,理论上可以互补
- GPT / DeepSeek / Qwen: 这些是底层模型,Bookworm 目前只跑在 Claude 上(因为 Claude Code 的工具调用能力目前最强),但技能编排的思路是通用的
几个我自己用得最多的场景
1. 发布工作流
输入 /ship,它会自动: 跑测试 → 代码审查 → 更新版本号 → 生成 CHANGELOG → 创建 PR。一条命令搞定以前要敲十几条命令的事。
2. 出了 Bug 不知道原因
输入 /investigate,它会系统化地排查: 先复现 → 读错误日志 → 定位根因 → 提出假设 → 验证修复。铁律是"不找到根因就不出修复方案",不会瞎猜。
3. 安全审计
告诉它"红队测试一下这个项目",两个 Opus 级别的智能体会从攻击者角度找漏洞: 一个试编码绕过、路径混淆、注入攻击,另一个找逻辑漏洞和竞态条件。找到之后第三个智能体自动出修复方案。
4. 不止写代码的事
这可能是和纯编程工具最大的区别。我经常用它写商业计划书、做竞品分析、做定价策略、甚至审查合同条款。每个领域都有专门的技能,不用自己从头写 Prompt。
技术栈简单说一下
不用装额外的东西。它本质上是 Claude Code 的配置系统:
- 技能是 Markdown 文件 (SKILL.md),里面定义触发词、上下文、约束规则
- 智能体是 Claude Code 的 Agent 子进程,每个有独立上下文窗口
- 路由引擎跑在 Claude Code 的 hooks 机制上 (UserPromptSubmit 钩子)
- MCP 集成走的 Claude Code 原生协议
- 安全规则在 settings.json 的 hooks 里注册
所以它不是一个独立应用,是一套"Claude Code 的高级配置"。好处是零额外依赖,坏处是目前只能跑在 Claude Code 上。
后续计划
老实说现在还是个人项目阶段,很多地方还不够完善。接下来想做的:
- 社区版技能贡献机制(让大家一起贡献领域技能)
- 更好的可视化(目前全是终端输出,想做个 Web Dashboard)
- 探索接入其他模型底座的可能性
如果你也在用 Claude Code,或者在折腾 AI 编程提效这个方向,欢迎交流。
产品详情: bookworm.letcareme.com/about/ 产品手册: bookworm.letcareme.com/about/manua… 使用场景: bookworm.letcareme.com/about/cases…