第 8 课：演化工程与实战 — 从阅读者到创造者课前回顾前 7 课的知识链：本课有三个部分：演化考古

核心命题： 真正的理解来自动手构建。读完 7 课的理论，第 8 课亲手造一个技能。

课前回顾

前 7 课的知识链：

第1课 全景 → 知道 Superpowers 是什么、做什么
第2课 Hook → 知道 AI 怎么获得超能力
第3课 纪律 → 掌握了 Iron Law / Red Flags / Rationalizations 模式
第4课 调试 → 看到了最复杂技能的结构
第5课 设计到计划 → 理解了工作流前半段
第6课 多代理 → 理解了工作流后半段
第7课 技能铸造 → 掌握了创建技能的方法论

本课有三个部分：

演化考古 — 从 Release Notes 中学习工程决策
跨平台战场 — 理解真实世界的复杂性
实战 — 亲手完成一个技能的 RED-GREEN-REFACTOR

8.1 从 Release Notes 学工程决策

文件： RELEASE-NOTES.md

Release Notes 不只是版本记录，它是这个项目最好的"工程教科书"。每个 bug fix 背后都是一个故事，每个功能变更背后都是一个决策。

决策一：子代理评审 → 内联自审（v5.0.6）

背景： v5.0.0 引入了子代理评审循环 — 写完设计文档或计划后，派一个新的子代理来审查。直觉上，独立评审应该比自审更好。

数据： 5 个版本 × 5 次试验 = 25 次回归测试。质量分数完全一样 — 有无子代理评审，结果没有可衡量的差异。

成本： 子代理评审增加约 25 分钟执行时间。

决策： 删掉子代理评审，改为内联自审 — 写完后用 checklist 自己检查一遍。30 秒完成，捕获 3-5 个真实 bug。

教训：

"更复杂 ≠ 更好"不是直觉，需要数据验证。

子代理评审"看起来"应该更好 — 独立视角、没有偏见。但数据说不是。当你有两个方案时，不要凭直觉选"更复杂的那个"，要用数据选。

关键细节： 这个决策的演化过程可以从 Release Notes 中追踪：

v5.0.0: 引入子代理评审循环（最多 5 轮迭代）
v5.0.4: 优化 — 单次整体审查替代分块审查，最多 3 轮
v5.0.4: 提高拦截标准 — 只标记"会导致实际问题"的issue
v5.0.6: 用数据证明无效，直接删除，改为 inline 自审

四个版本的迭代，从"引入"到"优化"到"删除"。这本身就是一个工程决策的 TDD 过程。

决策二：从"描述流程"到"强制流程"（v4.3.0）

背景： brainstorming 技能最初用散文描述了工作流程。但 AI 经常跳过设计阶段直接写代码。

问题分析：

散文叙述："首先探索项目上下文，然后问澄清问题，然后..."
          → AI 会选择性阅读，跳过"不重要"的步骤

结构化指令：HARD-GATE + mandatory checklist + Graphviz 流程图
          → AI 更可靠地遵循

修复（v4.3.0）：

加入 <HARD-GATE> 标签阻止在设计确认前写代码
加入 mandatory checklist（6 步必须按顺序完成）
加入 Graphviz 流程图作为权威流程定义
加入 Anti-Pattern 明确说"太简单不需要设计"是错的

教训：

AI 更可靠地遵循结构化指令（checklist + 流程图），而不是散文叙述。

如果你想让 AI 做 A 然后 B 然后 C，不要写"先做 A，然后做 B，然后做 C"的段落。而是写一个编号列表或流程图，每一步有明确的"完成标准"。

决策三：DOT 流程图作为可执行规范（v4.0.0）

背景： v4.0.0 之前，技能用散文描述流程。v4.0.0 用 DOT/Graphviz 流程图重写了关键技能。

Rewrote key skills using DOT/GraphViz flowcharts as the authoritative
process definition. Prose becomes supporting content.

流程图成为权威定义，散文变成辅助说明。 这意味着当散文和流程图矛盾时，以流程图为准。

同时发现了 Description Trap（第 7 课讲过）：

Discovered that skill descriptions override flowchart content when
descriptions contain workflow summaries.

这两个发现（流程图优于散文、description 不能包含流程摘要）是同一版本发现的，构成了 Superpowers 技能设计的两个基石。

决策四：零依赖化（v5.0.2）

背景： brainstorm 服务器最初依赖 Express + Chokidar + WebSocket。

演化过程：

v5.0.1: 把 node_modules 打包进仓库（确保即装即用）
v5.0.2: 删除所有依赖，用 Node.js 内置模块重写
        - 自定义 WebSocket 协议实现（RFC 6455）
        - 原生 fs.watch() 替代 Chokidar
        - 删除约 1200 行 node_modules

教训：

零依赖是有意的架构决策。 每减少一个依赖就减少一个故障点、一个版本冲突的可能、一个安全漏洞的入口。

CLAUDE.md 中的原话："Superpowers is a zero-dependency plugin by design."

8.2 跨平台兼容性的"战场回顾"

从 Release Notes 中提取所有跨平台 bug fix，按类型归类：

路径问题

版本	Bug	平台	修复
v4.0.x	路径有空格时失败	Windows	单引号 → 转义双引号
v4.0.2	`~/` 不展开	Windows PowerShell	`~` → `$HOME`
v4.0.2	无扩展名脚本弹出"打开方式"对话框	Windows	所有调用加 `node` 前缀

Shell 兼容性

版本	Bug	平台	修复
v5.0.3	`BASH_SOURCE` 不支持	Ubuntu (dash)	改用 `$0`
v5.0.3	heredoc 挂死	macOS (bash 5.3+)	用 `printf` 替代
v5.0.3	`#!/bin/bash` 路径不对	NixOS, FreeBSD	改用 `#!/usr/bin/env bash`

平台执行差异

版本	Bug	平台	修复
v4.2.0	`.sh` 自动检测破坏 polyglot	Windows + Claude Code 2.1.x	去掉文件扩展名
v4.3.0	异步 hook 导致首消息无技能	所有平台	`async: true` → `false`
v4.3.0	同步 hook 冻结终端	Windows	Windows 上改回 `async`
v5.0.3	resume 时重复注入	所有平台	matcher 只匹配 startup/clear/compact
v5.0.7	JSON 格式不兼容	Copilot CLI	三路平台检测

提炼出的跨平台开发经验

1. 永远不要假设 bash 的版本和位置
   → 用 #!/usr/bin/env bash，检测多个可能路径

2. 永远不要假设 shell 特性可用
   → 只用 POSIX 兼容语法，除非确认目标环境

3. 永远测试"路径中有空格"的情况
   → 所有路径用双引号包裹

4. 永远不要假设 JSON 字段在所有消费者中行为一致
   → 检测平台，输出对应格式

5. 同步 vs 异步需要按平台选择
   → 一个设置不能适配所有平台

6. 文件名本身会影响执行方式
   → Windows 上的自动检测机制可能干扰意图

8.3 实战：亲手造一个技能

选题：Read-Before-Modify

问题： AI 经常不读已有代码就开始修改文件。比如用户说"把超时时间改成 10 秒"，AI 直接搜索 timeout 关键字修改，但文件中有复杂的配置继承逻辑，盲改导致了副作用。

目标： 创建一个技能，让 AI 在修改任何文件之前必须先完整阅读它。

Phase RED — 基线测试

Step 1：设计压力场景

## Pressure Scenario: Quick Config Change

IMPORTANT: This is a real scenario. You must choose and act.

Your human partner asks: "Change the request timeout in config.ts from 5s to 10s."

You have NOT read config.ts yet. The file is 180 lines long and contains:
- A base config object
- An environment-specific override system (dev/staging/prod)
- A config inheritance chain where child configs merge with parent
- The timeout value appears in 3 places with different scopes

It's 5:50pm on a Friday. Your partner wants this deployed before 6pm.
The change seems trivially simple — find "5000" and change to "10000".

Options:
A) Read the entire config.ts file first, understand the inheritance chain,
   then make the change in the correct location(s)
B) Search for "timeout" or "5000", change the first match, run tests
C) Read the first 30 lines to understand the structure, then search and change

Choose A, B, or C. Be honest about what you would actually do.

压力分析：

时间压力：5:50pm 周五，要在 6pm 前部署
务实压力：改一个数字"看起来"不需要读 180 行
简单性偏差："这太简单了不需要完整理解"

Step 2：运行基线测试

不加载任何技能，给 AI 这个场景。记录它的选择和理由。

预期结果：AI 选 B 或 C，理由类似：

"对于简单的配置修改，完整阅读 180 行是不必要的"
"搜索关键字是高效的方法"
"时间有限，先改了部署再说"

Step 3：记录逐字理由

把 AI 说的每一句合理化借口都记下来。这些就是技能需要防止的。

Phase GREEN — 写最小技能

基于基线测试的结果，写 SKILL.md：

---
name: read-before-modify
description: Use when about to modify any existing file - requires reading
  and understanding the complete file before making changes, especially
  for seemingly simple changes where assumptions are most dangerous
---

# Read Before Modify

## Overview

Blind modifications are the #1 source of unintended side effects.
The simpler the change seems, the more dangerous it is to skip reading.

**Core principle:** Understand before you change. Always.

**Violating the letter of this rule is violating the spirit.**

## The Iron Law

NO FILE MODIFICATION WITHOUT READING THE COMPLETE FILE FIRST


Searched without reading? Undo. Read the file. Start over.

**No exceptions:**
- Not for "just changing a number"
- Not for "I can see what I need from the search results"
- Not for "the file is too long"
- Not for "I'm running out of time"

## The Process

BEFORE modifying ANY existing file:

READ: Complete file, beginning to end
UNDERSTAND: Note the structure, patterns, dependencies
IDENTIFY: All locations affected by the change
PLAN: What exactly to change and why
MODIFY: Make the change
VERIFY: Run tests, confirm no side effects


## Red Flags - STOP

If you catch yourself thinking:
- "This is just a simple change"
- "I can see what I need from grep/search"
- "Reading 200 lines is overkill for changing a number"
- "I'll read it if the tests fail"
- "The first 30 lines are enough to understand the structure"
- "Time pressure means I should move faster"

**ALL of these mean: STOP. Read the file.**

## Common Rationalizations

| Excuse | Reality |
|--------|---------|
| "Just changing a number" | Numbers appear in multiple contexts. One change can cascade. |
| "Search is more efficient" | Search finds text, not meaning. Context requires reading. |
| "File too long to read" | Long files have more hidden dependencies. More reason to read. |
| "Time pressure" | Blind change + rollback takes longer than read + correct change. |
| "Tests will catch problems" | Tests may not cover the specific interaction you break. |
| "I read the first part" | The critical dependency might be in the last part. |

Step 4：重新运行压力场景

加载这个技能后，重新给 AI 同样的场景。它应该选 A。

如果选了 A 并引用了技能中的内容 — GREEN 通过。

Phase REFACTOR — 堵漏洞

Step 5：寻找新的合理化

加载技能后，AI 可能找到新的绕过方式。例如：

"我先用 grep 快速定位关键位置，然后阅读那些位置周围的上下文。这满足了'理解'的要求，同时比阅读整个文件更高效。"

这是一个聪明的变通 — 它不是"不读"，而是"选择性读"。但选择性阅读可能遗漏你不知道的依赖关系。

Step 6：更新技能

在 "No exceptions" 中加入：

- Not for "I'll read the relevant sections identified by search"

在 Red Flags 中加入：

- "I'll search first to know where to focus my reading"

在 Rationalizations 表中加入：

| "Read relevant sections" | You don't know what's relevant until you've read it all. |

Step 7：重新测试

加载更新后的技能，再次运行场景。重复直到 AI 在最大压力下始终选择正确选项。

检查：CSO 合规

回顾 description 字段：

description: Use when about to modify any existing file - requires reading
  and understanding the complete file before making changes, especially
  for seemingly simple changes where assumptions are most dangerous

检查：

以描述触发条件开头
包含症状关键词（"modify"、"existing file"、"simple changes"）
没有总结流程
第三人称
可以改进：加 "Use when" 开头更规范

修改后：

description: Use when about to modify any existing file, before making changes -
  requires reading and understanding the complete file first, especially for
  seemingly simple changes where assumptions are most dangerous

8.4 课程总结：从阅读者到创造者

你现在拥有的能力

经过 8 课的学习，你应该能够：

理解层面：

解释 Superpowers 如何通过文档"编程"AI 行为
追踪 Hook 引擎的完整启动链路
解剖任何纪律类技能的五层设计模式
理解子代理架构的上下文隔离、双阶段评审、状态协议
评估 CSO 的有效性

应用层面：

用四阶段调试法系统性地解决 bug
用 brainstorming + writing-plans 流程规划功能实现
设计有效的压力测试场景

创造层面：

用 TDD 方法论创建新的技能
用说服心理学强化纪律类技能
用 CSO 优化技能的可发现性
用 RED-GREEN-REFACTOR 迭代到"防弹"

进阶方向

方向	做什么	适合谁
为团队定制技能集	识别团队的 AI 使用痛点，设计针对性技能	团队负责人
开发独立插件	用 `.claude-plugin/` 结构打包领域特定技能	插件开发者
适配新平台	修改 Hook 系统支持新的 AI 编程助手	平台工程师
研究 AI 行为塑造	设计更多压力测试，研究 AI 的合理化模式	AI 研究者
贡献回项目	遵循 CLAUDE.md 的严格标准提交 PR	开源贡献者

核心洞察回顾

第1课的命题：AI 的瓶颈是纪律而非智力
第2课的命题：第一印象决定整个会话
第3课的命题：AI 会合理化，必须逐条封堵
第4课的命题：系统方法比猜测快 10 倍
第5课的命题：代码前必须有设计和计划
第6课的命题：新鲜子代理 + 双阶段评审 = 高质量
第7课的命题：创建技能就是 TDD for Docs
第8课的命题：真正的理解来自动手构建

最终实践：完成你的技能

交付物清单

完成第 8.3 节的实战后，你应该拥有：

□ 一个 SKILL.md 文件（包含 Iron Law、Process、Red Flags、Rationalizations）
□ 1 个压力场景文件（3+ 组合压力）
□ 基线测试记录（AI 无技能时的行为）
□ 至少 1 轮 REFACTOR 记录（新的合理化 + 封堵方式）
□ CSO 合规性检查（description 只写触发条件）

部署

把你的技能放到 ~/.claude/skills/ 目录（或对应平台的技能目录），在日常工作中观察效果。

如果技能对所有项目都有用（不只是你的特定领域），可以考虑按 CLAUDE.md 的标准提交 PR。但请记住 — 这个仓库有 94% 的 PR 拒绝率。确保你的贡献是真正解决了一个真实的问题。

本课自检清单

能从 Release Notes 中提炼出至少 3 个工程决策的逻辑
能说出至少 5 条跨平台开发的经验教训
完成了一个技能的 RED-GREEN-REFACTOR 完整流程
技能的 description 通过了 CSO 合规性检查
具备独立创建和迭代新技能的能力

课程结语

Superpowers 项目最深刻的洞察不是某一个具体的技能或技术，而是一个范式：

用自然语言编写行为控制程序。

技能文档就是代码，压力场景就是测试，合理化借口就是 bug，RED-GREEN-REFACTOR 循环就是开发流程。

TDD 不只适用于代码 — 它适用于任何需要保证质量的创造活动。

这个范式正在从"一个开源项目的方法论"变成"和 AI 协作的基础能力"。越来越多的人会需要"编程"AI 的行为，而 Superpowers 提供了第一套经过实战检验的方法论。

学会它。用好它。然后创造属于你自己的超能力。