OpenClaw实战:Hermes Agent 深度评测——自改进 Loop 的本质风险与 Memory Provider 选型

63 阅读5分钟

本文首发于微信公众号「Wesley AI 日记」,更多 AI Agent 实战系列请微信搜索关注。

Nous Research 的 Hermes Agent,42 天 24,600 star,1,000+ merged PR。这不是炒作数据——我把它接进 OpenClaw 跑了 7 天,实打实地测了。

结论:决定不切换。但我从这 7 天里摸到了 2026 年 Agent 框架选型最核心的分水岭。这篇文章把踩到的坑、选型逻辑、以及一个可直接套用的决策框架全部拆给你看。

Hermes 是什么:三句话定位

  1. 常驻服务器的自治进程,不是每次 prompt 重建的无状态调用
  2. 自改进 Learning Loop:任务结束后自动复盘提炼 skill,写进自己的 skill library
  3. 7 个可插拔 Memory Provider:从本地 SQLite 零依赖到云端 LLM extraction,全选择

官方定位是"An agent that grows with you"——跨会话记忆 + 自动进化,是目前开源生态里把这个 loop 做成稳定工程实现(MIT License)的第一个通用 Agent 项目。

自改进 Learning Loop 的本质风险(PR 翻车案例)

这是 Hermes 最有杀伤力的功能,也是最危险的地方。

跑了 7 天的真实时间线:

  • Day 1-2:普通 Claude API 水平,没有感知差异
  • Day 3-4:开始记住项目结构、常用命令别名、代码风格。问"帮我改那个爬虫"不再反问"哪个"
  • Day 5-7:出现惊喜——它主动复用了我另一个项目里的 decorator 模式,跨项目技能迁移,这是传统 RAG 给不了的

但第 6 天出事了。

它自己生成了一个"自动提交代码"的 skill。测试环境看起来没问题。第 7 天,这个 skill 把一个半成品 PR 合进了 main 分支。

追查下来:提炼 skill 时它漏掉了"只在 develop 分支操作"这个前提条件。

这就是自改进 Agent 的本质风险

错误假设 → 看起来能工作 → 被固化成 skill → 几天后以意想不到的方式爆发

对一人公司来说,这个风险不对称——我一天能亲眼盯住的 AI 行为有限,半夜跑偏,第二天才发现。

生产环境建议:默认关闭 auto-apply skill,每个新 skill 人工过一遍,不然迟早出事。

7 个 Memory Provider 选型指南

Hermes v0.7.0 把 memory 层变成可插拔 provider,官方提供了 7 个:

Provider核心机制关键指标推荐场景
Hindsight知识图谱 + reflect 合成LongMemEval 91.4% (Gemini-3)最高准确度,能本地跑
HolographicHRR 代数 + 纯 SQLite亚毫秒检索,零额外依赖极简环境,不想装依赖
OpenVikingL0/L1/L2 分层加载(ByteDance 开源)省 80-90% token长期运行,控制 token 成本
Mem0云端 LLM extractionLongMemEval-S 67.6%30 秒上手,个人项目
Honchodialectic user modelingAGPL v3商业项目注意许可证
ByteRover人类可读 Markdown tree可手动编辑需要人工干预记忆内容
RetainDBvector + BM25 + cross-encoder rerank检索精度最强付费,对准确度要求极高

选型建议

  • 个人开发者/一人公司:先用 Holographic(零依赖,快速起步),稳定后迁 Hindsight
  • token 成本敏感:直接上 OpenViking,80-90% 的省法是真实的
  • 对许可证严格:避开 Honcho(AGPL v3),商业自托管要小心

重要警告:Memory provider 绑定后迁移很痛,历史数据不自动迁移。选之前想清楚。

单 Agent vs Agent Team:哲学分歧

Hermes 的本质是"超级单 Agent"——不是 multi-agent 框架,没有协同层,没有蜂群。每个任务走同一个 loop:输入 → 推理 → 工具使用 → 记忆 → 输出。

我过去半年在 OpenClaw 里做的事正好相反:把内容、运营、开发、视觉、增长、质检拆成六个 Agent,各司其职,CEO Agent 做调度。

两种架构在单一复杂任务上 Hermes 更流畅——它端到端做完,没有 CEO 派活 → dev-engineer → content-reviewer 质检 → 回 CEO 汇报这个链路成本。

但一旦任务跨领域,Hermes 的单 loop 就开始吃力:没有身份切换,context 越来越臃肿,成本失控。

关键判断维度

你的业务 = 一个复杂任务     → 选 Hermes(自改进 + 持久记忆是纯收益)
你的业务 = 一家小公司       → 选 Agent Team(分工 > 单点强化)
你需要企业级稳定 + 合规     → 选 Claude Managed Agents(运维负担更低)

我的三个决策依据

1. 自改进风险不对称:我亲手写的人格配置每条规则我都能解释,审计可读性对一人公司是刚需。Hermes 自生成的 skill,额外审计成本我不想付。

2. 迁移成本 > 增量收益:过去半年在 OpenClaw 里沉淀的 Workflow、Skill、人格文件是真金白银的资产。为了自改进重写这些,ROI 不划算。

3. Hermes 还在快速迭代:42 天 4 个大版本。今天迁移的工作流,下个月可能要重写。等 v1.0 稳定了再做主切换判断。

值得直接搬的两个功能

不全量切换,但这两个功能我会边缘接入 OpenClaw:

  1. 自然语言定时调度:"每天早 8 点发我 GitHub issue 摘要",自己解析成定时表达式,替代手写 cron 脚本
  2. 多入口接续:电脑开头,手机 Telegram 接上,session 无缝衔接

你用过 Hermes Agent 吗?或者你在纠结要不要从 Claude Agent SDK 切过去?欢迎在评论区聊聊你的选型经验。


完整的 Hermes Agent vs Claude Agent SDK / Agent Teams / OpenClaw 决策框架在公众号「Wesley AI 日记」,微信搜索关注。

公众号二维码

知识星球「光锥之内」—— Agent 实战、工具推荐、问题讨论,欢迎加入。

知识星球二维码

相关文章(微信搜索「Wesley AI 日记」关注):

  • OpenClaw实战:Anthropic 三种 Agent 架构选型指南(Claude Agent SDK / Agent Teams / Managed Agents 深度对比)