Hermes-vs-OpenClaw-Agent框架六条死穴“我用了 3 天就卸载 Hermes Agent”：他的 6

“我用了 3 天就卸载 Hermes Agent”：他的 6 条批评，道出了所有 AI Agent 框架的通病

作者视角：AI 应用工程从业者

用了3天就卸载 Hermes Agent 的六条死穴

一、一条 132 赞的推文引发的思考

4月26日，一位叫 Versun 的独立开发者在 X 上发了一条帖子：

"再次卸载了 Hermes Agent，太傻了，和 OpenClaw 比差的不是一点两点，严重怀疑那些吹它聪明的人，有没有深入用过？我的版本号：V0.11.0"

帖子获得 132 赞、13 转发。在中文 AI 开发者圈子里，这是相当高的互动量。

更有价值的是他列出的 6 条具体问题。这不是一篇情绪化的吐槽，而是一份来自真实使用者的、有层次的 Bug 报告。我逐条读完，意识到他指出的不是 Hermes 一家的问题——这是当前所有 AI Agent 框架在工程设计上还没解决的核心难题。

二、6 条批评，其实是一份 Agent Harness 的评分标准

AI Agent框架6大设计死穴清单

问题 1：工具调用不灵活，容易一条路走到黑

"一个方案行不通就会一直尝试，而不是换一个方案"

这是最难的问题，没有之一。

一个工具调用失败之后，Agent 应该怎么办？重试同一个方案？还是换思路？这背后需要 Agent 对自己的失败模式有建模能力：这次失败是参数错了、工具本身有 Bug、还是方向就走错了？

当前大多数 Agent 框架的做法是：让大模型自己判断。但大模型在"是否已经尝试了足够多次"这件事上出奇地无能——它缺少对自己行为轨迹的元认知。Hermes 显然没有在 harness 层做额外约束，所以模型就陷入死循环。

OpenClaw 处理得更好，但也不是完美的。这个问题的根本解法在于结构化的重试策略，而不是全权交给模型的直觉。

问题 2：上下文管理糟糕，超出就重开

"只要超出模型上下文，基本就是重开，没有任何之前会话的记忆"

上下文溢出的处理方式，是区分 Agent 框架工程质量的核心指标之一。

当前主流有三种策略：

截断：最简单，丢掉最早的内容，代价是失忆
摘要压缩：成本高，但相对保真
外部记忆：向量数据库或文件系统存储，理论最好，但工程复杂度最高

Hermes 的做法显然是截断加重开，Versun 的描述已经说明这一点。这在短任务上勉强可用，但放到 agentic loop 里，稍微复杂一点的任务就会丢失关键的中间状态，等于在没有短期记忆的情况下做长程决策。

问题 3：子代理管理糟糕，不审查子代理结果

"不会审查/核实子代理返回的结果"

这是多 Agent 架构下的信任问题，也是目前被讨论最少、但实际上最危险的设计缺陷。

当主 Agent 派出子 Agent 去完成子任务，子 Agent 返回的结果是可信的吗？主 Agent 应不应该校验？如果子 Agent 幻觉了一个"任务已完成"的响应，主 Agent 是否会照单全收？

Hermes 的回答显然是"是的，照单全收"。这在简单任务里看不出问题，但在生产级的 agentic 工作流中，不加校验的子代理结果是幻觉链式传播的温床。

主 Agent 应该对子代理实施类似代码 review 的机制——不是盲信，而是用确定性规则或二次询问验证关键结果。这个功能的缺失，说明 Hermes 在多 Agent 协同的设计上还停留在"信任所有人"的天真阶段。

问题 4：无法优雅地并发处理多条信息

并发能力是 Agent 框架从"好用的 REPL"进化为"真正的自动化系统"的分水岭。

单线程阻塞式处理对于一个开发助手够了，但对于一个 autonomous agent——同时监控多个数据源、并发执行多个子任务、聚合多路结果——就显得捉襟见肘。

目前 OpenClaw 对并发的支持做得更好，Hermes 在这一块几乎是串行的。从用户角度感受到的是"处理得不够优雅"，从工程角度看是任务调度器的设计缺失。

问题 5：对自己的配置文件比用户还陌生

"哪些能改哪些不能改，比我还陌生"

这一条看起来最轻微，却最能说明问题：Agent 对自身系统的元知识。

如果一个 Agent 连自己的配置文件边界都不清楚，我们凭什么相信它能可靠地修改文件系统、执行 Shell 命令、或者管理复杂的项目结构？

这实际上揭示了 Hermes 的训练数据或系统提示里缺少对自身架构的准确描述。一个工具不理解自己，就不可能做到可预期的行为。

问题 6：系统提示词和模型调教与 OpenClaw 有巨大差距

这是 Versun 列出的 6 条里最难量化、也最难追赶的一条。

系统提示词的质量，是当前 AI Agent 框架之间最大的、也最不透明的竞争维度。它决定了模型在工具调用边界、拒绝策略、错误恢复、多轮对话一致性等方面的行为，而这些行为的差异在基础模型层面几乎看不出来，只有在实际的 agentic 场景里才会暴露。

OpenClaw 在这一块的积累已经相当深厚——这不是几个月能追上的。Hermes 的"自进化"卖点还停留在营销层面，工程层面的提示词工程还差得远。

Hermes vs OpenClaw 两种工程哲学对比

三、炮灰也没关系——Versun 的第七个洞察

有意思的是，Versun 在这条批评帖发出前一天，刚写了一篇截然不同的反思：

"这些工具当然是实验性的，甚至很多现在看起来很热闹的东西，过半年可能就没人用了。AI 时代的工具淘汰速度太快了，今天刚搭好的工作流，明天模型一更新，可能就直接原地报废。"

"但真正有价值的是：你在亲手折腾这些工具的过程中，会被迫理解它们到底是怎么工作的。"

他把这些工具称为"炮灰"，然后说：炮灰也没关系，在炮灰堆里摸爬滚打过的人，至少知道战场长什么样。

这是我见过对当前 AI 应用开发状态最准确的描述之一。

他举了自己开发 ShareThis.Chat 的例子：一开始 Skill 文档只有一句话，后来写到百来行——只是为了让 Agent 正确处理"分享聊天内容"这一个小功能。在这个过程里，他搞清楚了：模型能力的边界在哪，产品设计的取舍是什么，安全机制在什么时候会误伤正常功能（就是他踩的 Hermes 安全机制脱敏 token 的那个坑）。

这种认知，是看再多评测帖都学不到的。

四、我的判断：这场争论的真正意义

Hermes 和 OpenClaw 都不会是终点。

更重要的问题是：当一个更强的 AI Agent 框架出来的时候，谁能快速判断它好在哪、烂在哪、该信任它什么、不该信任它什么？

答案是那些现在在折腾各种框架、踩过各种坑的人。

对于 AI 从业者，我的建议：

用 Versun 的 6 条标准评估你在用的任何 Agent 框架：工具调用重试策略、上下文溢出处理、子代理校验、并发能力、自我元知识、提示词工程质量。这六个维度，能帮你快速找到框架的设计下限在哪。
不要被"自进化"这类营销词汇迷惑。自进化听起来很酷，但 Versun 用了 3 天就发现 Hermes 并没有真正进化。真正的 Agent 质量，藏在它出错时如何恢复、卡住时如何换思路、失忆时如何续命。
现在的选择不重要，积累的认知重要。这些工具大概率都是过渡期产品。但你在使用它们的过程中建立起来的直觉——哪些失败是模型能力问题，哪些是 harness 设计问题，哪些是提示词问题——会成为你在 AI Agent 领域持续有价值的核心资产。

AI从业者三条生存建议

最后引用 Versun 那句话作为结尾：

"炮灰也没关系。在炮灰堆里摸爬滚打过的人，至少知道战场长什么样。"

元芳们，你怎么看？