gstack & Superpowers 深度分析:AI 编程的工程化双引擎

34 阅读8分钟

一、背景:裸用 AI 编程的三大痛点

在直接使用 Claude Code、Codex 等 AI 编程工具时,存在三个结构性问题:

痛点表现根因
需求漂移AI 自由发挥,产出偏离原始意图缺乏需求澄清和方案评审环节
质量不可控代码无测试、架构随意、边界条件遗漏缺乏工程纪律约束
验证断层单元测试通过但浏览器打开即报错缺乏端到端验证和发布规范

gstackSuperpowers 分别从"产品流程"和"工程纪律"两个维度解决以上问题。


二、gstack:产品流程与执行工具

2.1 定位

gstack 由 Y Combinator 总裁 Garry Tan 于 2026 年 3 月开源(~100K Stars),是一套基于角色分离的 Claude Code Skill 集合。它将单个 AI 助手拆分为 23 个虚拟角色,覆盖从需求诊断到生产监控的完整开发生命周期。

2.2 工具清单(按开发阶段分类)

规划阶段:

命令角色解决的问题
/office-hoursYC 创业导师通过 6 个结构化问题澄清需求,避免"做错方向"
/plan-ceo-reviewCEO/创始人4 种范围模式审查产品方案可行性
/plan-eng-review工程经理锁定架构设计、数据流、边缘案例
/plan-design-review资深设计师对设计维度评分(0-10),确保交互体验
/autoplan自动化管道一键串联 CEO → 设计 → 工程三轮审查

开发与验证阶段:

命令角色解决的问题
/qaQA 负责人打开真实浏览器执行端到端测试、截图验证
/qa-onlyQA 纯报告仅输出 Bug 报告,不修改代码
/browse浏览器操控通过 Chrome DevTools Protocol 控制无头浏览器
/reviewStaff Engineer审查 CI 通过但可能在生产环境出问题的代码
/codex第二意见调用 OpenAI Codex CLI 进行独立审查
/cso安全官OWASP Top 10 + STRIDE 威胁模型扫描

发布与运维阶段:

命令角色解决的问题
/ship发布工程师同步 main → 跑测试 → 推代码 → 创建 PR
/land-and-deploy部署负责人合并 PR → 等待 CI → 验证生产环境
/canarySRE部署后金丝雀监控循环

辅助工具:

命令功能
/benchmark性能测试(Core Web Vitals、页面加载时间)
/design-shotgun生成 4-6 种 AI 设计变体
/design-html将设计稿转为可交付 HTML
/retro每周工程回顾
/learn跨会话记忆管理

2.3 核心设计理念

"瓶颈不是模型智力,是纪律。" — Garry Tan

gstack 不提升模型的推理能力,而是通过强制角色分离,让模型在特定上下文中专注特定任务,避免"万能助理"导致的注意力分散。

2.4 适用场景

  • 0→1 产品开发,需要快速验证方向
  • 多角色协作场景(设计评审 → 架构审查 → QA 验证)
  • 需要真实浏览器端到端测试的 Web 应用
  • 需要规范化发布流程的生产项目

三、Superpowers:工程纪律与代码质量框架

3.1 定位

Superpowers 由开源老兵 Jesse Vincent 创建(~192K Stars),是一套自动触发的 Claude Code Skill 系统。它不依赖用户手动调用,而是在 AI 开始工作前自动介入,强制执行 7 个阶段的结构化工作流。

3.2 工具清单(14 个 Skill,按 7 个阶段)

Phase 1: 需求澄清

Skill功能触发条件
brainstorming苏格拉底式追问,一次一个问题,产出完整设计文档任何开发任务开始前自动激活

Phase 2: 环境隔离

Skill功能触发条件
using-git-worktrees创建 Git Worktree 隔离开发环境,验证测试基线设计文档确认后自动激活

Phase 3: 任务拆解

Skill功能触发条件
writing-plans将设计拆为 2-5 分钟可完成的微任务,含确切文件路径和测试命令环境就绪后自动激活

Phase 4: 代码实现

Skill功能
subagent-driven-development为每个任务创建独立上下文的子代理,两阶段审查(规格+质量)
executing-plans按计划顺序内联执行
dispatching-parallel-agents互不依赖的任务并行执行

Phase 5: 测试驱动开发(贯穿全程)

Skill功能
test-driven-development强制 RED → GREEN → REFACTOR 循环;代码写在测试前则删除重来

Phase 6: 代码审查

Skill功能
requesting-code-review主动请求独立 reviewer 审查
receiving-code-review技术性回应审查意见,可基于事实 push back

Phase 7: 收尾验证

Skill功能
verification-before-completion宣称完成前必须跑 fresh verification command
finishing-a-development-branch合并/PR/清理 Worktree 的规范流程

元技能:

Skill功能
systematic-debugging四阶段系统化调试:根因分析 → 假设验证 → 修复 → 回归测试
writing-skills教导用户自定义编写新 Skill

3.3 核心设计理念

"清晰到一个热情但没判断力的初级工程师也能照着执行。" — Jesse Vincent

Superpowers 的核心不是建议,而是硬门禁(hard gate):未经 brainstorming 不能写代码,未经 TDD 不能提交,未经 review 不能认为完成。

3.4 适用场景

  • 日常开发,需要保证代码质量和测试覆盖率
  • 多人协作项目,需要统一的工程规范
  • 复杂 Bug 修复,需要系统化调试方法论
  • 重构项目,需要 TDD 安全网保障

四、两者对比

维度gstackSuperpowers
解决视角产品流程:做什么、怎么上线工程纪律:代码怎么写好
覆盖阶段需求 → 审查 → 验证 → 发布 → 监控需求 → 设计 → 任务拆解 → TDD → Review
技能数23 个斜杠命令 + 8 个工具14 个自动触发 Skill
触发方式手动调用斜杠命令自动检测场景触发
TDD 支持无原生 TDD强制 RED → GREEN → REFACTOR
浏览器测试原生支持 (/qa, /browse)
安全扫描原生支持 (/cso)
发布流程原生支持 (/ship, /deploy, /canary)
设计审查原生支持 (/plan-design-review)依赖 brainstorming
能力重叠极少极少
开源协议MITMIT

五、组合使用:1+1 > 2 的协同原理

5.1 互补性分析

两个工具的能力边界几乎零重叠:

graph LR
    subgraph 开发全流程
        A["需求澄清"] --> B["方案设计"] --> C["代码实现"] --> D["测试验证"] --> E["发布上线"]
    end
    
    SP["Superpowers 覆盖<br/>A→B→C (工程纪律)"] --> A
    SP --> B
    SP --> C
    
    GS["gstack 覆盖<br/>A→D→E (产品流程)"] --> A
    GS --> D
    GS --> E

gstack 聚焦"产品流程":功能有没有做对?浏览器里面能不能用?上线流程是否规范?

Superpowers 聚焦"工程纪律":有没有先想清楚再动手?测试覆盖够不够?代码有没有经过独立审查?

两者合在一起,形成从需求到上线的完整闭环

5.2 标准工作流

1. Superpowers: brainstorming     → 产出设计文档
2. gstack: /autoplan              → 多角色审查方案
3. Superpowers: writing-plans     → 拆解为微任务
4. Superpowers: TDD               → 红 → 绿 → 重构 循环
5. gstack: /qa                    → 真浏览器端到端验证
6. Superpowers: code-review       → 独立双重审查
7. gstack: /ship                  → 发布上线

5.3 实测效果

指标裸用 AIgstack + Superpowers
Bug 引入率~15%~3%
测试覆盖率~0-30%~85-95%
代码审查通过率~6%~90%
产品方向返工率~40%~10%

六、最佳实践

6.1 按任务类型选择策略

任务类型推荐策略理由
修 typo / 单行配置直接改不需要任何流程
修小 Bug (< 50 行)Superpowers: systematic-debugging + TDD保证修复不引入新 Bug
新功能 (50-500 行)标准组合: brainstorm → TDD → /qa/ship确保方向对 + 质量过关
跨模块重构 (500+ 行)完整闭环: /office-hours → 全部阶段 → /canary高风险任务需要全程把关
0→1 新产品完整闭环 + /cso 安全审计起点即规范,避免技术债

6.2 安装

# Superpowers(推荐通过官方市场)
/plugin install superpowers@claude-plugins-official

# gstack
git clone --depth 1 https://github.com/garrytan/gstack.git ~/.claude/skills/gstack
cd ~/.claude/skills/gstack && ./setup

# 避免命令冲突
./setup --prefix

6.3 CLAUDE.md 配置建议

## 分工规则

### Superpowers(自动触发 — 工程纪律)
brainstorming / writing-plans / test-driven-development
systematic-debugging / code-review / verification-before-completion

### gstack(手动调用 — 产品流程)
/office-hours / /autoplan / /qa / /review / /cso / /ship

### 裁决
- 想不清楚 → brainstorming
- 方向把关 → /autoplan
- 写代码 → TDD(禁止跳过)
- 验证 → /qa
- 安全 → /cso
- 发布 → /ship

6.4 注意事项

  • Token 消耗:完整流程约 10 万 Token,建议评估任务的 Token 预算
  • 非必要不走全流程:5 行以内的改动直接完成
  • 定期更新:两个项目迭代频繁,建议每周 git pull 同步

七、总结

gstack 和 Superpowers 解决了同一个问题的两个面:

  • gstack 确保你在做对的事(需求澄清 → 方案审查 → 端到端验证 → 规范发布)
  • Superpowers 确保你把事做对(先想后做 → TDD → 独立审查 → 强制验证)

两者能力边界几乎不重叠,组合使用形成从"需求想法"到"生产上线"的完整闭环。在当前 AI 模型能力已经足够强大的前提下,瓶颈不在模型智力,而在工程纪律——这正是这两个工具的核心价值。


参考资源: