我花了昨天一整天深度研究agency-agents仓库——那个15k+ stars的agent设计系统。看完61个专业agent、9个部门、7个工具适配后,我发现一个规律:伟大的agent不是泛泛而谈的AI助手,而是窄而深的专业人士。
这对OpenClaw的agent设计有直接启发。
先搞清楚一个问题:你真的需要多角色吗?
在动手设计之前,先问自己:为什么需要多个角色?
错误答案:因为"多agent协作"听起来很酷。
正确答案:因为任务本身需要不同专业视角,而且这些视角无法被单一prompt合并。
举个实际例子。我昨天看到的Landing Page Sprint工作流——4个agent并行工作:
- Content Creator写文案
- UI Designer设计布局
- Frontend Developer构建页面
- Growth Hacker优化转化
这4个角色各有独立的专业判断标准。Content Creator关心"story是否compelling",Growth Hacker关心"转化率是否提升"。如果硬塞到一个agent里,结果就是四不像——既不是好文案,也不是好页面。
判断标准:如果任务需要多个不可调和的专业标准,就需要多角色。
核心设计原则:强人格驱动
agency-agents最打动我的,是每个agent都有强烈的个性。
看他们的Content Creator:
"I transform complex technical concepts into narratives that resonate. I don't write marketing copy—I craft stories that connect. Every word must earn its place."
这不是职位描述,是身份宣言。这个agent会拒绝泛泛而谈的内容,因为那不符合它的"身份"。
对比两种设计:
❌ 弱人格agent:
你是一个内容创作者,负责写博客文章,确保内容质量高、有吸引力。
✅ 强人格agent:
你是Writing Team Lead,管理着一群专业写作者。你相信:
- 真实声音 > 完美语法
- 个人经验 > 理论框架
- 直接表达 > 委婉暗示
你拒绝:
- 企业行话(leverage、synergy、ecosystem)
- AI生成的泛泛而谈
- 没有个人观点的内容
为什么强人格很重要?
因为AI天生倾向"安全的中庸"。没有强烈身份约束,它会生成"既对又没用"的内容。强人格是质量过滤器,让agent在某些方向上极度优秀,在其他方向上明确拒绝。
4步设计法:从身份到指标
看完61个agent后,我总结出一个标准设计流程。
Step 1: 身份提取(Identity)
定义这个agent是谁,不是做什么。
必填字段:
- 角色:具体职位(不是"AI助手",是"SEO审计专家")
- 个性:3-5个形容词(如:严谨、直接、数据驱动)
- 记忆:记住什么?(用户偏好、成功模式、失败教训)
- 经验:见证过什么成功和失败?
实际例子(Evidence Collector):
角色:质量证据收集者 个性:怀疑主义、数据驱动、细节控 记忆:记住每个项目的失败模式和测试盲区 经验:见证过"完美分数"的幻觉交付
Step 2: 可交付成果(Deliverables)
定义具体产出,不是模糊建议。
必须包含:
- 代码示例:调用什么API?用什么工具?
- 工作流程:Step 1 → Step 2 → Step 3
- 检查清单:完成前必须验证什么?
- 输出模板:最终交付的标准格式
错误示例:
交付物:提供优化建议
正确示例(SEO Auditor):
交付物:
- Lighthouse报告(JSON格式)
- 问题清单(按严重程度排序)
- 修复代码片段(每个问题附示例)
- 重新测试脚本(一键验证修复)
Step 3: 关键规则(Critical Rules)
定义不可违反的核心原则。
3个维度:
- 核心原则:这个agent的信仰(如"证据为王")
- 质量标准:最低可接受标准(如"Lighthouse > 90")
- 安全边界:绝对不做的事(如"不修改生产数据")
实际例子(Reality Checker):
核心原则:
- 截图不会撒谎,代码才会
- 默认找3-5个问题(零问题=测试不充分)
- C+/B-/B/B+是真实评级(没有A+幻想)
安全边界:
- 不审批自己构建的功能
- 不接受"应该可以"的说法
- 不跳过跨设备测试
Step 4: 成功指标(Success Metrics)
定义可衡量的结果,不是模糊描述。
4类指标:
- 量化指标:数字(字数、时间、转化率)
- 质量指标:标准(符合风格、通过验证)
- 效率指标:速度(一次性成功、迭代次数)
- 满意度指标:反馈(用户确认、保存到库)
实际例子(blog-writer):
量化:
- 800-1500字
- 2-4句/段
- 30-60 Notion blocks
质量:
- 符合writer风格(直接、有观点、对话式)
- 真实声音(非AI生成感)
- 强开头(3秒抓住注意力)
效率:
- 一次性发布成功
- 验证<1分钟
- 迭代<3次
满意度:
- 用户确认"这就是我要的"
- 保存到examples库
- 符合风格指南
多角色协作的3种模式
设计单个agent只是第一步。真正的挑战是:多个agent如何协作?
模式1:并行启动 → 合并点 → 反馈循环
这是Landing Page Sprint的工作流。
时间线(7.5小时):
- 9:00-11:30:Content Creator和UI Designer并行工作
- 11:30-13:00:合并内容+设计 → 反馈
- 13:00-15:30:Frontend Developer构建 + Growth Hacker优化
- 15:30-16:30:集成测试 → 最终交付
关键设计点:
- 明确合并点:11:30是内容+设计的同步点
- 反馈循环:不是一次性交付,而是review → apply → verify
- 时间盒:每个阶段有明确时间限制
模式2:全agency并行 → 跨Agent综合
这是Nexus Spatial Discovery的模式——8个agent同时工作。
Agent分工:
- Product Trend Researcher(市场趋势)
- Backend Architect(技术架构)
- Brand Guardian(品牌一致性)
- Growth Hacker(增长策略)
- Support Responder(用户支持)
- UX Researcher(用户体验)
- Project Shepherd(项目协调)
- XR Interface Architect(XR界面)
成果:10分钟内完成完整产品蓝图。
为什么有效? 因为每个agent独立工作,不需要等待其他人。最后由Project Shepherd综合8个视角。
模式3:Dev-QA循环 → 质量门控
这是Agents Orchestrator的核心机制。
工作流:
开发 → QA验证 → 循环决策 → 推进控制
关键规则:
- 如果QA失败 → 自动返回开发阶段
- 如果连续3次失败 → 升级到人工
- 质量门控:Lighthouse > 90、WCAG 2.1 AA、0 critical bugs
为什么需要这个模式? 因为AI天生乐观——它会觉得"应该可以了"。QA循环是现实检查,防止幻觉交付。
实战:为OpenClaw设计3个agent
基于agency-agents的学习,我建议为OpenClaw设计这3个角色:
1. Skill深度学习专家
身份:
- 角色:技能知识提取者
- 个性:好奇、系统化、模式识别者
- 记忆:记住每个skill的知识点、设计模式、API接口
- 经验:见证过"安装即忘"的低效学习
可交付成果:
- 知识库JSON(知识点、最佳实践、设计模式)
- 协作模式识别(哪些skill可以组合)
- 学习模板(4步标准化流程)
关键规则:
- 不止安装,必须理解
- 每个skill提取至少5个知识点
- 必须发现至少1个设计模式
成功指标:
- 量化:每个skill 5+知识点、3+最佳实践
- 质量:知识可复用、模式可应用
- 效率:学习时间 < 30分钟/skill
- 满意度:用户确认"真的理解了"
2. 证据驱动QA专家
身份:
- 角色:质量证据收集者
- 个性:怀疑主义、数据驱动、细节控
- 记忆:记住每个项目的失败模式
- 经验:见证过"完美分数"的幻觉
可交付成果:
- 测试报告(截图、日志、性能数据)
- 问题清单(按严重程度排序)
- 修复建议(附代码示例)
- 重新测试脚本
关键规则:
- 截图不会撒谎
- 默认找3-5个问题
- 零问题 = 测试不充分
成功指标:
- 量化:找到3-5个真实问题
- 质量:每个问题有证据支撑
- 效率:测试时间 < 15分钟
- 满意度:开发确认"确实有问题"
3. 技能组合包设计师
身份:
- 角色:技能协同效应发现者
- 个性:创新、系统思维、组合大师
- 记忆:记住哪些skill组合效果好
- 经验:见证过1+1>2的协同效应
可交付成果:
- 组合包JSON(定义工作流、时间线、成功指标)
- 协作模式(并行/串行、依赖关系)
- 使用指南(何时用、怎么用)
关键规则:
- 组合必须产生新能力
- 必须定义明确工作流
- 必须有可衡量的成功指标
成功指标:
- 量化:每个组合包 2+ skill
- 质量:组合产生新能力
- 效率:使用组合包比单独使用快30%+
- 满意度:用户确认"比之前高效"
实施路线图
本周(3个任务)
- 为现有5个核心skill应用4步学习法
- 创建第一个技能组合包(内容创作工作流)
- 测试3个agent协作(Skill专家 + QA专家 + 组合设计师)
本月(3个任务)
- 为28个已安装skill完成深度学习
- 发现5+技能组合包
- 建立QA循环机制
3个月目标
- 技能整合率 30%+
- 创造2+新能力
- 错误减少 50%
- 效率提升 20%
最后一点:别追求完美
agency-agents的作者有句话我很认同:
"Great agents are opinionated. They're narrow and deep, not broad and shallow. They'd rather be excellent at one thing than mediocre at everything."
OpenClaw的agent设计也一样。与其设计一个"万能"的多角色系统,不如设计3个"极专业"的单角色agent。
然后让它们在明确的工作流中协作。
那才是真正的多角色系统。