从"24小时自治引擎"失败到"Pentest-Agent"可行性验证

3 阅读5分钟

引言:  很遗憾地告诉各位读者,我的24小时自治引擎构想完全失败了。因为 Hermes 官方目前并不支持跨 Agent 开展任务,虽然可以自己实现,但这需要大量构建、调试和源码改动,会发展出与 Hermes 官方完全不同的版本——今后面对 Hermes 更新时,无法同步到官方最新版本,冲突将是全面的。对于个人非程序员来说,这非常难以维护,于是暂时打消了这个构想。 在 GitHub 上看到 PentAGI 渗透测试框架时,作为"三不懂"跨专业选手的我却异常感兴趣。但 PentAGI 的模型接入并不支持国产大模型,于是思考:能否通过 Hermes 调用 PentAGI 进行渗透测试研究?  经过多 Agent 并行评估,MiniMax 给出的结论是:可行,但有条件。

方案架构

用户层 → Hermes(MiniMax/专家大脑) → PentAGI(工具执行平台) ↓ Docker沙箱 → 20+安全工具 → 结果存储 核心分工: MiniMax 负责决策、规划、判断、专家经验; PentAGI 负责安全工具执行、Docker 隔离、结果存储。 不是让 MiniMax 替代 PentAGI 的 LLM,而是让 MiniMax 作为"专家大脑",PentAGI 作为"工具手臂"。

三维度可行性评估

1. MiniMax 作为专家大脑(评分:8.5/10)

能力评级说明
攻击路径规划HIGH完整的AD攻击链、Web攻击序列文档
漏洞分析HIGHCVE 2024-2025详情 + CVSS评分 + 检测规则
Exploit选择MEDIUM-HIGH依赖工具和公开Exploit,非0-day开发
后渗透策略HIGHDCSync、Golden Ticket、ACL滥用等全覆盖
优势:  204K token上下文可容纳完整测试计划;知识库覆盖31个领域;MITRE ATT&CK映射完整;工具命令参考详尽(Mimikatz、Impacket、Rubeus、BloodHound)。
局限:  无法进行自定义Exploit开发(缓冲区溢出、ROP链);无法做高级二进制逆向;无法做0-day研究。
结论:  适合作为自动化渗透测试支持引擎,而非自主Exploit开发平台。

2. 编排架构(评分:完全可行)

方面PentAGI支持Hermes集成
API类型REST + GraphQL✅ 可通过HTTP调用
认证Bearer Token✅ 环境变量存储
创建FlowPOST /flows 或 createFlow mutation✅ 简单HTTP请求
状态轮询GraphQL flow(id) query✅ 轮询机制
结果获取REST GET /flows/{id}✅ 获取漏洞报告
异步处理原生支持✅ 无需维持连接
关键发现:  PentAGI的API设计非常适合外部编排。Hermes作为Controller的标准交互模式:Step1创建Flow获取flow_id → Step2轮询状态(每10秒查询)→ Step3获取结果。
PentAGI原生提供:Docker沙箱隔离(解决最关键安全问题)、20+安全工具集成(nmap/metasploit/sqlmap等)、工具执行历史记录、结果持久化存储。

3. 知识库质量(评分:需要补充关键知识)

核心洞察:  30年专家 vs 菜鸟的差距,不在于知识量,而在于判断力。  | 知识类型 | 当前状态 | 差距影响 | |---------|---------|---------| | 技术攻击知识 | ✅ 14K行,31领域 | 低 — 覆盖全面 | | 工具命令参考 | ✅ 完整 | 低 | | CVE数据库 | ✅ 2024-2025 | 低 | | 决策框架 | ❌ 缺失 | 高 — 一眼假 | | 经验警示 | ❌ 缺失 | 高 — 像新手 | | 模式识别 | ⚠️ 分散 | 中 — 缺直觉 | | 默认凭证表 | ❌ 缺失 | 高 — 常见场景 | P0级知识补充(让专家更像30年经验):

  1. 默认凭证速查表(500+条目):路由器/交换机/打印机默认密码、CMS系统默认凭证、云服务默认配置
  2. 攻击路径选择决策树:"如果目标有X特征 → 优先攻击Y",体现"不做什么"的判断
  3. "不要做"清单:"这种情况 → 这个操作可能导致X后果",体现经验教训
  4. 快速评估框架:"看到这个 → 通常意味着X",nmap输出解读、日志模式识别

综合结论

维度状态说明
MiniMax专家能力✅ 可行适合作为自动化渗透测试引擎
编排架构✅ 可行PentAGI API设计优秀,支持外部编排
知识库质量⚠️ 需补充技术知识够,判断力知识缺
Docker隔离✅ 由PentAGI提供解决最关键安全问题
工具集成✅ 由PentAGI提供20+安全工具原生支持

实施路径

Phase 1:核心架构(1-2天)  部署PentAGI(Docker Compose)→ 配置Bearer Token认证 → 测试API连接(createFlow→poll→getResults)→ 开发Hermes Controller脚本 Phase 2:知识补充(3-5天)  补充默认凭证表(500+条目)→ 建立攻击路径决策树(4个主要场景)→ 创建"不要做"清单 → 添加快速评估框架 Phase 3:专家人设打磨(持续)  行业定制测试策略(金融/医疗/电商/政府)→ 漏洞业务影响评估指南 → 客户沟通话术 → 历史案例库(脱敏)

风险与缓解

风险级别缓解措施
PentAGI不支持MiniMax已解决架构调整:MiniMax负责规划,PentAGI负责执行
API延迟影响体验异步轮询机制,专家可同时做其他分析
工具执行结果解析PentAGI提供结构化输出,减少解析复杂度
专家判断力不足补充P0知识(决策框架/经验警示)

最终评估

问题:  Pentest-Agent(MiniMax)+ PentAGI(工具执行)的方案可行吗? 答案:  可行,这是一个聪明的架构设计。  原因:  MiniMax有足够的知识深度扮演专家(8.5/10评分);PentAGI提供完整的API支持外部编排;架构上解决了最关键的问题——Docker隔离(由PentAGI提供);知识库的技术部分已经完善,只需补充"判断力"知识。 下一步建议:

  1. 立即开始补充P0知识(默认凭证、决策树、经验警示)
  2. 部署PentAGI并测试API集成
  3. 开发Hermes Controller脚本

评估完成:  2026-04-27 评估团队:  3个并行子Agent(MiniMax-M2.7-highspeed)