我造了一个叫 RevHive 的开源工具,让 9 个专业 AI Agent 并行审查 PR,加上 1 个 Coordinator 综合去重,总共 10 个 Agent 协作,30 秒出报告。
先说痛点
你每天花多少时间在 Code Review 上?
我之前在团队里,平均每天 1-2 小时看 PR。大部分时间花在:
- 逐行看 diff,找拼写错误和风格问题
- 检查 SQL 有没有注入、密码有没有硬编码
- 看性能有没有 N+1、内存泄漏
- 想想逻辑边界、异常处理
说实话,80% 的问题是重复模式——SQL 注入、硬编码密钥、缺少错误处理。人眼查这些,又慢又容易漏。
我的方案:9 个 Agent 各管一摊
与其让一个 LLM "什么都看",不如让每个 Agent 只看自己最擅长的事:
| Agent | 只看什么 |
|---|---|
| SecurityAgent | SQL 注入、XSS、硬编码密钥、弱加密、认证缺陷 |
| PerformanceAgent | N+1 查询、内存泄漏、算法复杂度 |
| LogicAgent | 边界情况、异常处理、竞态条件、类型安全 |
| StyleAgent | 命名规范、格式、文档 |
| RepoAgent | 设计模式、SOLID 原则、模块结构 |
| RefactorAgent | 重构机会、代码变换、渐进迁移 |
| FixAgent | 生成修复代码 + 根因分析 |
| TestAgent | 单测、边界测试、安全回归测试 |
| DocAgent | API 文档、架构文档、使用示例 |
9 个 Agent 并行跑完,第 10 个 Coordinator 做三件事:
- 语义去重 — 多个 Agent 发现同一个问题时,合并成一条(不是简单去重,用 Jaccard 相似度做语义匹配)
- 冲突解决 — 两个 Agent 对同一个问题给出不同严重等级时,用 LLM 裁决
- Risk Score — 输出 0-100 的风险分,一眼判断能不能 merge
30 秒上手,不需要 API Key
pip install revhive-ai
revhive demo
跑完你会看到这样的报告:
这是 demo 模式,用预设的 mock 数据,不需要任何 API Key,0 成本体验。
真实审查:用自己的 Key,花自己的钱
Demo 看完觉得行?配一个 LLM Key 就能用真实版:
export LLM_API_KEY=your-deepseek-key
revhive review --file src/main.py
重点来了:用 DeepSeek 跑一次审查大概 0.10-0.30。 你自己出 token 钱,我不赚中间差价。
支持 5 家 LLM:
| Provider | 单次审查成本 | 备注 |
|---|---|---|
| DeepSeek | ~$0.05 | 最便宜,推荐 |
| MiMo(小米) | 免费/极低 | 有免费额度 |
| OpenAI GPT-4o | ~$0.10-0.30 | 最强但最贵 |
| Qwen(阿里) | ~$0.05-0.10 | 国内网络友好 |
| Anthropic Claude | ~$0.15-0.40 | 代码理解强 |
GitHub App:PR 自动审查
不想手动跑 CLI?装个 GitHub App,每次提 PR 自动审查:
- 安装 RevHive GitHub App
- 在 Dashboard 粘贴你的 LLM API Key(AES-256 加密存储)
- 下一个 PR 自动收到审查报告
免费版:4 个核心 Agent(Security + Performance + Logic + Style),每月 50 次。
Pro 版 $12/月:全部 9 个 Agent + inline comment + commit status gate(可以做 CI 质量门禁)。
跟 CodeRabbit 比怎么样?
我用了半年 CodeRabbit,说说真实的感受:
| RevHive | CodeRabbit | |
|---|---|---|
| Agent 数量 | 10 个(9 审查 + 1 协调器) | 单 LLM |
| 中国 LLM | ✅ DeepSeek/MiMo/Qwen/GLM/Kimi | ❌ 只能用他们的 |
| 费用透明 | 你自己选模型,自己看账单 | 包在订阅里,不知道用了什么模型 |
| CLI 本地跑 | ✅ 免费,数据不出本机 | ❌ 必须走他们的云 |
| Demo 试用 | ✅ 不需要 Key | ❌ |
| Risk Score | ✅ 0-100 分,可做 CI 门禁 | ✅ 有 |
| 开源 | ✅ BSL-1.1 | 部分 |
CodeRabbit 最大的问题是审查质量不稳定 — 他们在做 cost-cutting,用便宜模型的时候审查质量明显下降。你没法控制。
RevHive 的 BYOK 模式意味着:你用 GPT-4o,就享受 GPT-4o 的质量;你用 DeepSeek,就知道花了多少钱。 透明可控。
一个真实案例
拿一段有安全漏洞的 Python 代码试了一下:
# 糟糕的代码
user_id = request.args.get('id')
cursor.execute(f"SELECT * FROM users WHERE id = {user_id}") # SQL 注入
os.system(f"ping {user_input}") # 命令注入
password = "hardcoded_secret_123" # 硬编码密码
RevHive 输出:
🚨 Risk Score: CRITICAL (91/100)
🔴 CRITICAL — SecurityAgent
Remote Code Execution via shell injection (Line 3)
→ Use subprocess.run() with command list + input validation
🟠 HIGH — SecurityAgent
SQL Injection via string interpolation (Line 2)
→ Use parameterized queries: cursor.execute('SELECT * FROM users WHERE id = %s', (user_id,))
🟡 MEDIUM — SecurityAgent
Hardcoded credential detected (Line 4)
→ Load from os.environ.get('API_SECRET')
三个安全问题,全部命中,每个都有具体修复建议。
项目信息
- GitHub: github.com/Jansen003/R…
- 安装:
pip install revhive-ai - License: BSL-1.1(4 年后转 Apache 2.0)
- 当前版本: v0.3.10
如果你在做 Code Review 上花了不少时间,或者对 AI 辅助审查感兴趣,试试看:
pip install revhive-ai
revhive demo
30 秒,不需要任何 Key,看看 10 个 Agent 的审查报告长什么样。
有问题或者建议,欢迎到 GitHub 提 Issue 🙏