一、背景:裸用 AI 编程的三大痛点
在直接使用 Claude Code、Codex 等 AI 编程工具时,存在三个结构性问题:
| 痛点 | 表现 | 根因 |
|---|---|---|
| 需求漂移 | AI 自由发挥,产出偏离原始意图 | 缺乏需求澄清和方案评审环节 |
| 质量不可控 | 代码无测试、架构随意、边界条件遗漏 | 缺乏工程纪律约束 |
| 验证断层 | 单元测试通过但浏览器打开即报错 | 缺乏端到端验证和发布规范 |
gstack 和 Superpowers 分别从"产品流程"和"工程纪律"两个维度解决以上问题。
二、gstack:产品流程与执行工具
2.1 定位
gstack 由 Y Combinator 总裁 Garry Tan 于 2026 年 3 月开源(~100K Stars),是一套基于角色分离的 Claude Code Skill 集合。它将单个 AI 助手拆分为 23 个虚拟角色,覆盖从需求诊断到生产监控的完整开发生命周期。
2.2 工具清单(按开发阶段分类)
规划阶段:
| 命令 | 角色 | 解决的问题 |
|---|---|---|
/office-hours | YC 创业导师 | 通过 6 个结构化问题澄清需求,避免"做错方向" |
/plan-ceo-review | CEO/创始人 | 4 种范围模式审查产品方案可行性 |
/plan-eng-review | 工程经理 | 锁定架构设计、数据流、边缘案例 |
/plan-design-review | 资深设计师 | 对设计维度评分(0-10),确保交互体验 |
/autoplan | 自动化管道 | 一键串联 CEO → 设计 → 工程三轮审查 |
开发与验证阶段:
| 命令 | 角色 | 解决的问题 |
|---|---|---|
/qa | QA 负责人 | 打开真实浏览器执行端到端测试、截图验证 |
/qa-only | QA 纯报告 | 仅输出 Bug 报告,不修改代码 |
/browse | 浏览器操控 | 通过 Chrome DevTools Protocol 控制无头浏览器 |
/review | Staff Engineer | 审查 CI 通过但可能在生产环境出问题的代码 |
/codex | 第二意见 | 调用 OpenAI Codex CLI 进行独立审查 |
/cso | 安全官 | OWASP Top 10 + STRIDE 威胁模型扫描 |
发布与运维阶段:
| 命令 | 角色 | 解决的问题 |
|---|---|---|
/ship | 发布工程师 | 同步 main → 跑测试 → 推代码 → 创建 PR |
/land-and-deploy | 部署负责人 | 合并 PR → 等待 CI → 验证生产环境 |
/canary | SRE | 部署后金丝雀监控循环 |
辅助工具:
| 命令 | 功能 |
|---|---|
/benchmark | 性能测试(Core Web Vitals、页面加载时间) |
/design-shotgun | 生成 4-6 种 AI 设计变体 |
/design-html | 将设计稿转为可交付 HTML |
/retro | 每周工程回顾 |
/learn | 跨会话记忆管理 |
2.3 核心设计理念
"瓶颈不是模型智力,是纪律。" — Garry Tan
gstack 不提升模型的推理能力,而是通过强制角色分离,让模型在特定上下文中专注特定任务,避免"万能助理"导致的注意力分散。
2.4 适用场景
- 0→1 产品开发,需要快速验证方向
- 多角色协作场景(设计评审 → 架构审查 → QA 验证)
- 需要真实浏览器端到端测试的 Web 应用
- 需要规范化发布流程的生产项目
三、Superpowers:工程纪律与代码质量框架
3.1 定位
Superpowers 由开源老兵 Jesse Vincent 创建(~192K Stars),是一套自动触发的 Claude Code Skill 系统。它不依赖用户手动调用,而是在 AI 开始工作前自动介入,强制执行 7 个阶段的结构化工作流。
3.2 工具清单(14 个 Skill,按 7 个阶段)
Phase 1: 需求澄清
| Skill | 功能 | 触发条件 |
|---|---|---|
brainstorming | 苏格拉底式追问,一次一个问题,产出完整设计文档 | 任何开发任务开始前自动激活 |
Phase 2: 环境隔离
| Skill | 功能 | 触发条件 |
|---|---|---|
using-git-worktrees | 创建 Git Worktree 隔离开发环境,验证测试基线 | 设计文档确认后自动激活 |
Phase 3: 任务拆解
| Skill | 功能 | 触发条件 |
|---|---|---|
writing-plans | 将设计拆为 2-5 分钟可完成的微任务,含确切文件路径和测试命令 | 环境就绪后自动激活 |
Phase 4: 代码实现
| Skill | 功能 |
|---|---|
subagent-driven-development | 为每个任务创建独立上下文的子代理,两阶段审查(规格+质量) |
executing-plans | 按计划顺序内联执行 |
dispatching-parallel-agents | 互不依赖的任务并行执行 |
Phase 5: 测试驱动开发(贯穿全程)
| Skill | 功能 |
|---|---|
test-driven-development | 强制 RED → GREEN → REFACTOR 循环;代码写在测试前则删除重来 |
Phase 6: 代码审查
| Skill | 功能 |
|---|---|
requesting-code-review | 主动请求独立 reviewer 审查 |
receiving-code-review | 技术性回应审查意见,可基于事实 push back |
Phase 7: 收尾验证
| Skill | 功能 |
|---|---|
verification-before-completion | 宣称完成前必须跑 fresh verification command |
finishing-a-development-branch | 合并/PR/清理 Worktree 的规范流程 |
元技能:
| Skill | 功能 |
|---|---|
systematic-debugging | 四阶段系统化调试:根因分析 → 假设验证 → 修复 → 回归测试 |
writing-skills | 教导用户自定义编写新 Skill |
3.3 核心设计理念
"清晰到一个热情但没判断力的初级工程师也能照着执行。" — Jesse Vincent
Superpowers 的核心不是建议,而是硬门禁(hard gate):未经 brainstorming 不能写代码,未经 TDD 不能提交,未经 review 不能认为完成。
3.4 适用场景
- 日常开发,需要保证代码质量和测试覆盖率
- 多人协作项目,需要统一的工程规范
- 复杂 Bug 修复,需要系统化调试方法论
- 重构项目,需要 TDD 安全网保障
四、两者对比
| 维度 | gstack | Superpowers |
|---|---|---|
| 解决视角 | 产品流程:做什么、怎么上线 | 工程纪律:代码怎么写好 |
| 覆盖阶段 | 需求 → 审查 → 验证 → 发布 → 监控 | 需求 → 设计 → 任务拆解 → TDD → Review |
| 技能数 | 23 个斜杠命令 + 8 个工具 | 14 个自动触发 Skill |
| 触发方式 | 手动调用斜杠命令 | 自动检测场景触发 |
| TDD 支持 | 无原生 TDD | 强制 RED → GREEN → REFACTOR |
| 浏览器测试 | 原生支持 (/qa, /browse) | 无 |
| 安全扫描 | 原生支持 (/cso) | 无 |
| 发布流程 | 原生支持 (/ship, /deploy, /canary) | 无 |
| 设计审查 | 原生支持 (/plan-design-review) | 依赖 brainstorming |
| 能力重叠 | 极少 | 极少 |
| 开源协议 | MIT | MIT |
五、组合使用:1+1 > 2 的协同原理
5.1 互补性分析
两个工具的能力边界几乎零重叠:
graph LR
subgraph 开发全流程
A["需求澄清"] --> B["方案设计"] --> C["代码实现"] --> D["测试验证"] --> E["发布上线"]
end
SP["Superpowers 覆盖<br/>A→B→C (工程纪律)"] --> A
SP --> B
SP --> C
GS["gstack 覆盖<br/>A→D→E (产品流程)"] --> A
GS --> D
GS --> E
gstack 聚焦"产品流程":功能有没有做对?浏览器里面能不能用?上线流程是否规范?
Superpowers 聚焦"工程纪律":有没有先想清楚再动手?测试覆盖够不够?代码有没有经过独立审查?
两者合在一起,形成从需求到上线的完整闭环。
5.2 标准工作流
1. Superpowers: brainstorming → 产出设计文档
2. gstack: /autoplan → 多角色审查方案
3. Superpowers: writing-plans → 拆解为微任务
4. Superpowers: TDD → 红 → 绿 → 重构 循环
5. gstack: /qa → 真浏览器端到端验证
6. Superpowers: code-review → 独立双重审查
7. gstack: /ship → 发布上线
5.3 实测效果
| 指标 | 裸用 AI | gstack + Superpowers |
|---|---|---|
| Bug 引入率 | ~15% | ~3% |
| 测试覆盖率 | ~0-30% | ~85-95% |
| 代码审查通过率 | ~6% | ~90% |
| 产品方向返工率 | ~40% | ~10% |
六、最佳实践
6.1 按任务类型选择策略
| 任务类型 | 推荐策略 | 理由 |
|---|---|---|
| 修 typo / 单行配置 | 直接改 | 不需要任何流程 |
| 修小 Bug (< 50 行) | Superpowers: systematic-debugging + TDD | 保证修复不引入新 Bug |
| 新功能 (50-500 行) | 标准组合: brainstorm → TDD → /qa → /ship | 确保方向对 + 质量过关 |
| 跨模块重构 (500+ 行) | 完整闭环: /office-hours → 全部阶段 → /canary | 高风险任务需要全程把关 |
| 0→1 新产品 | 完整闭环 + /cso 安全审计 | 起点即规范,避免技术债 |
6.2 安装
# Superpowers(推荐通过官方市场)
/plugin install superpowers@claude-plugins-official
# gstack
git clone --depth 1 https://github.com/garrytan/gstack.git ~/.claude/skills/gstack
cd ~/.claude/skills/gstack && ./setup
# 避免命令冲突
./setup --prefix
6.3 CLAUDE.md 配置建议
## 分工规则
### Superpowers(自动触发 — 工程纪律)
brainstorming / writing-plans / test-driven-development
systematic-debugging / code-review / verification-before-completion
### gstack(手动调用 — 产品流程)
/office-hours / /autoplan / /qa / /review / /cso / /ship
### 裁决
- 想不清楚 → brainstorming
- 方向把关 → /autoplan
- 写代码 → TDD(禁止跳过)
- 验证 → /qa
- 安全 → /cso
- 发布 → /ship
6.4 注意事项
- Token 消耗:完整流程约 10 万 Token,建议评估任务的 Token 预算
- 非必要不走全流程:5 行以内的改动直接完成
- 定期更新:两个项目迭代频繁,建议每周
git pull同步
七、总结
gstack 和 Superpowers 解决了同一个问题的两个面:
- gstack 确保你在做对的事(需求澄清 → 方案审查 → 端到端验证 → 规范发布)
- Superpowers 确保你把事做对(先想后做 → TDD → 独立审查 → 强制验证)
两者能力边界几乎不重叠,组合使用形成从"需求想法"到"生产上线"的完整闭环。在当前 AI 模型能力已经足够强大的前提下,瓶颈不在模型智力,而在工程纪律——这正是这两个工具的核心价值。
参考资源: