gstack & Superpowers 深度分析：AI 编程的工程化双引擎一、先讲一个悲伤的故事（你一定经历过）你是

一、背景：裸用 AI 编程的三大痛点

在直接使用 Claude Code、Codex 等 AI 编程工具时，存在三个结构性问题：

痛点	表现	根因
需求漂移	AI 自由发挥，产出偏离原始意图	缺乏需求澄清和方案评审环节
质量不可控	代码无测试、架构随意、边界条件遗漏	缺乏工程纪律约束
验证断层	单元测试通过但浏览器打开即报错	缺乏端到端验证和发布规范

gstack 和 Superpowers 分别从"产品流程"和"工程纪律"两个维度解决以上问题。

二、gstack：产品流程与执行工具

2.1 定位

gstack 由 Y Combinator 总裁 Garry Tan 于 2026 年 3 月开源(~100K Stars)，是一套基于角色分离的 Claude Code Skill 集合。它将单个 AI 助手拆分为 23 个虚拟角色，覆盖从需求诊断到生产监控的完整开发生命周期。

2.2 工具清单（按开发阶段分类）

规划阶段：

命令	角色	解决的问题
`/office-hours`	YC 创业导师	通过 6 个结构化问题澄清需求，避免"做错方向"
`/plan-ceo-review`	CEO/创始人	4 种范围模式审查产品方案可行性
`/plan-eng-review`	工程经理	锁定架构设计、数据流、边缘案例
`/plan-design-review`	资深设计师	对设计维度评分(0-10)，确保交互体验
`/autoplan`	自动化管道	一键串联 CEO → 设计 → 工程三轮审查

开发与验证阶段：

命令	角色	解决的问题
`/qa`	QA 负责人	打开真实浏览器执行端到端测试、截图验证
`/qa-only`	QA 纯报告	仅输出 Bug 报告，不修改代码
`/browse`	浏览器操控	通过 Chrome DevTools Protocol 控制无头浏览器
`/review`	Staff Engineer	审查 CI 通过但可能在生产环境出问题的代码
`/codex`	第二意见	调用 OpenAI Codex CLI 进行独立审查
`/cso`	安全官	OWASP Top 10 + STRIDE 威胁模型扫描

发布与运维阶段：

命令	角色	解决的问题
`/ship`	发布工程师	同步 main → 跑测试 → 推代码 → 创建 PR
`/land-and-deploy`	部署负责人	合并 PR → 等待 CI → 验证生产环境
`/canary`	SRE	部署后金丝雀监控循环

辅助工具：

命令	功能
`/benchmark`	性能测试(Core Web Vitals、页面加载时间)
`/design-shotgun`	生成 4-6 种 AI 设计变体
`/design-html`	将设计稿转为可交付 HTML
`/retro`	每周工程回顾
`/learn`	跨会话记忆管理

2.3 核心设计理念

"瓶颈不是模型智力，是纪律。" — Garry Tan

gstack 不提升模型的推理能力，而是通过强制角色分离，让模型在特定上下文中专注特定任务，避免"万能助理"导致的注意力分散。

2.4 适用场景

0→1 产品开发，需要快速验证方向
多角色协作场景（设计评审 → 架构审查 → QA 验证）
需要真实浏览器端到端测试的 Web 应用
需要规范化发布流程的生产项目

三、Superpowers：工程纪律与代码质量框架

3.1 定位

Superpowers 由开源老兵 Jesse Vincent 创建(~192K Stars)，是一套自动触发的 Claude Code Skill 系统。它不依赖用户手动调用，而是在 AI 开始工作前自动介入，强制执行 7 个阶段的结构化工作流。

3.2 工具清单（14 个 Skill，按 7 个阶段）

Phase 1: 需求澄清

Skill	功能	触发条件
`brainstorming`	苏格拉底式追问，一次一个问题，产出完整设计文档	任何开发任务开始前自动激活

Phase 2: 环境隔离

Skill	功能	触发条件
`using-git-worktrees`	创建 Git Worktree 隔离开发环境，验证测试基线	设计文档确认后自动激活

Phase 3: 任务拆解

Skill	功能	触发条件
`writing-plans`	将设计拆为 2-5 分钟可完成的微任务，含确切文件路径和测试命令	环境就绪后自动激活

Phase 4: 代码实现

Skill	功能
`subagent-driven-development`	为每个任务创建独立上下文的子代理，两阶段审查(规格+质量)
`executing-plans`	按计划顺序内联执行
`dispatching-parallel-agents`	互不依赖的任务并行执行

Phase 5: 测试驱动开发(贯穿全程)

Skill	功能
`test-driven-development`	强制 RED → GREEN → REFACTOR 循环；代码写在测试前则删除重来

Phase 6: 代码审查

Skill	功能
`requesting-code-review`	主动请求独立 reviewer 审查
`receiving-code-review`	技术性回应审查意见，可基于事实 push back

Phase 7: 收尾验证

Skill	功能
`verification-before-completion`	宣称完成前必须跑 fresh verification command
`finishing-a-development-branch`	合并/PR/清理 Worktree 的规范流程

元技能：

Skill	功能
`systematic-debugging`	四阶段系统化调试：根因分析 → 假设验证 → 修复 → 回归测试
`writing-skills`	教导用户自定义编写新 Skill

3.3 核心设计理念

"清晰到一个热情但没判断力的初级工程师也能照着执行。" — Jesse Vincent

Superpowers 的核心不是建议，而是硬门禁(hard gate)：未经 brainstorming 不能写代码，未经 TDD 不能提交，未经 review 不能认为完成。

3.4 适用场景

日常开发，需要保证代码质量和测试覆盖率
多人协作项目，需要统一的工程规范
复杂 Bug 修复，需要系统化调试方法论
重构项目，需要 TDD 安全网保障

四、两者对比

维度	gstack	Superpowers
解决视角	产品流程：做什么、怎么上线	工程纪律：代码怎么写好
覆盖阶段	需求 → 审查 → 验证 → 发布 → 监控	需求 → 设计 → 任务拆解 → TDD → Review
技能数	23 个斜杠命令 + 8 个工具	14 个自动触发 Skill
触发方式	手动调用斜杠命令	自动检测场景触发
TDD 支持	无原生 TDD	强制 RED → GREEN → REFACTOR
浏览器测试	原生支持 (/qa, /browse)	无
安全扫描	原生支持 (/cso)	无
发布流程	原生支持 (/ship, /deploy, /canary)	无
设计审查	原生支持 (/plan-design-review)	依赖 brainstorming
能力重叠	极少	极少
开源协议	MIT	MIT

五、组合使用：1+1 > 2 的协同原理

5.1 互补性分析

两个工具的能力边界几乎零重叠：

graph LR
    subgraph 开发全流程
        A["需求澄清"] --> B["方案设计"] --> C["代码实现"] --> D["测试验证"] --> E["发布上线"]
    end
    
    SP["Superpowers 覆盖<br/>A→B→C (工程纪律)"] --> A
    SP --> B
    SP --> C
    
    GS["gstack 覆盖<br/>A→D→E (产品流程)"] --> A
    GS --> D
    GS --> E

gstack 聚焦"产品流程"：功能有没有做对？浏览器里面能不能用？上线流程是否规范？

Superpowers 聚焦"工程纪律"：有没有先想清楚再动手？测试覆盖够不够？代码有没有经过独立审查？

两者合在一起，形成从需求到上线的完整闭环。

5.2 标准工作流

1. Superpowers: brainstorming     → 产出设计文档
2. gstack: /autoplan              → 多角色审查方案
3. Superpowers: writing-plans     → 拆解为微任务
4. Superpowers: TDD               → 红 → 绿 → 重构 循环
5. gstack: /qa                    → 真浏览器端到端验证
6. Superpowers: code-review       → 独立双重审查
7. gstack: /ship                  → 发布上线

5.3 实测效果

指标	裸用 AI	gstack + Superpowers
Bug 引入率	~15%	~3%
测试覆盖率	~0-30%	~85-95%
代码审查通过率	~6%	~90%
产品方向返工率	~40%	~10%

六、最佳实践

6.1 按任务类型选择策略

任务类型	推荐策略	理由
修 typo / 单行配置	直接改	不需要任何流程
修小 Bug (< 50 行)	Superpowers: `systematic-debugging` + TDD	保证修复不引入新 Bug
新功能 (50-500 行)	标准组合: brainstorm → TDD → `/qa` → `/ship`	确保方向对 + 质量过关
跨模块重构 (500+ 行)	完整闭环: `/office-hours` → 全部阶段 → `/canary`	高风险任务需要全程把关
0→1 新产品	完整闭环 + `/cso` 安全审计	起点即规范，避免技术债

6.2 安装

# Superpowers（推荐通过官方市场）
/plugin install superpowers@claude-plugins-official

# gstack
git clone --depth 1 https://github.com/garrytan/gstack.git ~/.claude/skills/gstack
cd ~/.claude/skills/gstack && ./setup

# 避免命令冲突
./setup --prefix

6.3 CLAUDE.md 配置建议

## 分工规则

### Superpowers（自动触发 — 工程纪律）
brainstorming / writing-plans / test-driven-development
systematic-debugging / code-review / verification-before-completion

### gstack（手动调用 — 产品流程）
/office-hours / /autoplan / /qa / /review / /cso / /ship

### 裁决
- 想不清楚 → brainstorming
- 方向把关 → /autoplan
- 写代码 → TDD（禁止跳过）
- 验证 → /qa
- 安全 → /cso
- 发布 → /ship

6.4 注意事项

Token 消耗：完整流程约 10 万 Token，建议评估任务的 Token 预算
非必要不走全流程：5 行以内的改动直接完成
定期更新：两个项目迭代频繁，建议每周 git pull 同步

七、总结

gstack 和 Superpowers 解决了同一个问题的两个面：

gstack 确保你在做对的事（需求澄清 → 方案审查 → 端到端验证 → 规范发布）
Superpowers 确保你把事做对（先想后做 → TDD → 独立审查 → 强制验证）

两者能力边界几乎不重叠，组合使用形成从"需求想法"到"生产上线"的完整闭环。在当前 AI 模型能力已经足够强大的前提下，瓶颈不在模型智力，而在工程纪律——这正是这两个工具的核心价值。

参考资源：