一、Agent 的核心执行骨架
核心发现:Agent 的本质不是魔法,而是一套精密的调度系统。
| 模块 | 职责 | 关键设计 |
|---|---|---|
| Skill Registry | 技能管理 | Head Meta 常驻(名称+描述),Full Meta 按需加载(完整 Schema) |
| Planner | 任务规划 | 只用 Head Meta 生成执行计划 [Skill_A, Skill_B, Skill_C] |
| Executor Loop | 执行循环 | 串行执行,动态装载当前 Skill 的 Full Meta |
| Evaluation Gate | 旁路评估 | 发生在 Skill 流转间隙,决定 PASS / RETRY / REPLAN |
关键洞察:
- Skill 是 Agent 的原子执行单元,LLM 只是大脑,Skill 才是手脚
- 评估不发生在 Skill 内部,而是 Skill 之间的"质检关卡"
- 幻觉 Skill 通过白名单校验 + 约束性 Replan 拦截,不依赖 LLM 自觉
二、自进化 = Prompt 的自我优化
核心发现:自进化 Agent 的本质,是让 LLM 根据执行经验,自动修改 Skill 内部的 instructions 字段(即执行 Prompt)。
| 进化环节 | 核心操作 |
|---|---|
| 触发条件 | 任务成功 + (工具调用≥5次 / 有过修复 / 用户要求) |
| 修改对象 | Skill.instructions(SOP 执行指令) |
| 修改方式 | 新建(完整生成)或打补丁(追加末尾) |
| 修改内容 | SOP 流程 + 已知陷阱 + 优化技巧 + 参数最佳实践 |
闭环逻辑:
执行任务 → 记录轨迹 → 判断复杂度 → 触发进化 → LLM 生成更好的 Prompt → 持久化 → 下次复用
三、记忆系统:三层架构
核心发现:记忆是自进化的地基,没有高质量的记忆,进化引擎只能看到"成功/失败"的二值信号。
| 记忆层次 | 对应 LLM Wiki 目录 | 本质 |
|---|---|---|
| 原始记忆 | raw/ | 未经处理的执行轨迹、原始对话 |
| 文档记忆 | wiki/ | 提炼后的 Skill 文档、用户偏好、经验总结 |
| 索引 | CLAUDE.md | 元信息目录,启动时注入 System Prompt |
前沿方案对比:
| 方案 | 核心理念 | 技术特点 |
|---|---|---|
| Letta (MemGPT) | LLM 主动管理记忆 | 核心记忆常驻 + 归档记忆按需检索 + 自我编辑工具 |
| Focus Agent | 自主上下文压缩 | 模型决定压缩时机,节省 22.7% token |
| ByteRover | Agent 原生统一架构 | 上下文树 + 自适应知识生命周期 + 零外部依赖 |
四、Harness 改进的三个层次
核心发现:记忆是基础设施,自进化是上层应用,两者是依赖关系而非并列关系。
┌─────────────────────────────────────────────────────────────┐
│ 第三层:自进化(从经验中自动生成/优化 Skill) │
│ ▲ │
│ │ 依赖 │
│ 第二层:记忆系统(执行轨迹存储、经验检索、上下文管理) │
│ ▲ │
│ │ 依赖 │
│ 第一层:执行 Harness(Plan-Execute-Evaluate 循环) │
└─────────────────────────────────────────────────────────────┘
| 层次 | 成熟度 | 当前焦点 |
|---|---|---|
| 执行 Harness | 🟢 成熟 | Plan-Execute-Evaluate 已成共识 |
| 记忆系统 | 🟡 快速发展 | 如何低成本、高保真地存储和检索 |
| 自进化 | 🔴 早期探索 | 如何避免劣化、如何跨任务泛化 |
五、Claude Code 的工程真相
核心发现:Demo 只需要 500 行,产品需要 50 万行。
| 代码层级 | 占比 | 职责 |
|---|---|---|
| 核心执行逻辑 | ~20% | 就是我们讨论的 Plan-Execute-Evaluate 骨架 |
| 工具层 | ~30% | 40+ 工具,每个都有 Schema 校验、权限门控、错误处理 |
| 安全层 | ~20% | 四层安全流水线、命令 AST 解析、熔断机制 |
| 界面/协作/基础设施 | ~30% | React 终端 UI、多 Agent 编排、MCP 集成、遥测 |
启示:AI Agent 的竞争,本质是"模型能力 + 工程纪律 + 安全成熟度"的综合战争。
六、LLM Wiki:知识管理新范式
核心发现:从"检索"到"编译"的范式转移。
| 对比维度 | RAG | LLM Wiki |
|---|---|---|
| 知识状态 | 一次性查询,无积累 | 持续编译,可生长 |
| 存储形式 | 向量数据库(黑盒) | Markdown 文件(白盒) |
| 更新方式 | 被动检索 | 主动提炼 + 联动更新 |
三层架构:
raw/(原始资料)→ wiki/(结构化知识)→ CLAUDE.md(索引)
七、贯穿始终的核心洞察
- Skill 是原子执行单元:Agent 的复杂度 = Skill 的编排复杂度
- 评估发生在 Skill 流转间隙:旁路质检关卡,不侵入 Skill 内部
- 自进化 = 修改 Prompt:LLM 写操作手册给未来的自己用
- 记忆是进化的地基:没有结构化记忆,进化就是空中楼阁
- 450 行能跑,50 万行能用:工程壁垒远高于算法壁垒
- 索引层是关键:
CLAUDE.md就是 Agent 的"世界观配置文件"
最终结论:现代 Agent 的本质,是一套 "以 Skill 为执行单元、以记忆为存储底座、以自进化为增长引擎" 的工程系统。其核心竞争力不在于单次推理的质量,而在于持续积累、自我优化、稳定执行的系统能力。