9个月,36800 Star,每周一个大版本。Nous Research 的 Hermes Agent 不是又一个套壳 ChatGPT——它可能是目前开源 AI Agent 框架里,架构设计最值得研究的一个。
今天不聊概念,直接拆架构、看代码、讲场景。
如果你是开发者、技术负责人、或者正在评估"用哪个 Agent 框架",这篇值得收藏。
一、先说结论:它到底解决了什么问题?
市面上 AI Agent 框架多如牛毛,但 Hermes Agent 精准打中了三个痛点:
1. 记忆断裂——每次新对话都从零开始,上次教过的工作流程全忘了 2. 能力天花板——用多久都是那个水平,不会因为用得多就变强 3. 平台绑定——绑死在一个模型供应商上,换不了,也搬不走
Hermes 的解法是:四层记忆 + 自主技能进化 + 完全模型无关。
这不是功能堆叠,是三个设计决策互相咬合后涌现出来的系统能力。下面一层层拆。
二、四层记忆架构:AI Agent 领域最精细的信息分级系统
大部分"有记忆"的 Agent 做法很粗暴:把历史对话塞进 context window,或者写个记忆文件每次加载。这种方案的问题是——要么 Token 成本随时间线性增长,要么信息密度太低没用。
Hermes 设计了一套 四层缓存感知的记忆体系,每层对应不同的信息生命周期:
第一层:Prompt Memory(常驻层)
核心参数和关键偏好,直接注入系统提示词,每次对话都在。
硬性上限:3575 字符。
这个设计很克制。不是越多越好,而是强制精炼——就像 CPU 的 L1 缓存,容量小但命中率极高。Agent 会通过自省机制,持续评估哪些信息值得留在这一层。
第二层:Session Search(检索层)
所有历史对话存入 SQLite,使用 FTS5 全文搜索引擎建索引。
工作方式:不占常驻上下文 → 需要时按关键词检索 → LLM 摘要后注入当前对话。
类比:这是你的"工作笔记本"。不用翻的时候不占桌面空间,需要时快速定位、提取关键信息。
第三层:Procedural Memory(技能层)
Agent 自动生成的"操作手册",以 Markdown 格式存储。
这是最有意思的一层。 默认只加载技能名称和一行摘要(几十个 Token),只有判断当前任务与某个技能相关时,才加载完整内容。
这意味着:哪怕 Agent 积累了 200 个技能,常驻开销也只是一个简短列表。按需加载,不是全量加载。
第四层:User Modeling(画像层)
被动跟踪用户的 12 个维度:沟通风格、技术栈偏好、时区习惯、常用工作流等。
不需要你主动告诉它"我喜欢什么",它从交互中自动提炼。用的时间越长,画像越精准。
四层协同的关键:缓存感知
系统提示词在会话开始时拍快照、冻结,运行过程中不再反复重建。高频调用路径走缓存。
这意味着:记忆越来越多,但 Token 成本不会线性增长。这是 Hermes 和大部分竞品在架构层面的本质差异。
三、自主技能进化:Agent 自己写操作手册,还会自己改
四层记忆是基础设施,但真正让 Hermes "越用越强" 的是它的 自主学习闭环。
触发机制
Agent 在固定间隔收到一个内部"自省信号"(nudge),主动回顾近期任务。不需要你触发。
技能自动创建
当一个任务满足以下任一条件,Agent 会自动把成功路径提炼为技能文档:
- 工具调用次数 ≥ 5
- 过程中出现错误恢复
- 用户中途纠正过操作方向
技能文档格式是标准 Markdown,包含:触发条件、前置检查、操作步骤、常见异常处理。兼容 agentskills.io 开放标准,这意味着社区技能可以互相复用。
技能自我迭代
执行某个已有技能时发现更优路径?Agent 会用 patch 模式(局部更新而非全量重写)更新技能文档。
这个设计选择很关键——全量重写有丢失已验证步骤的风险,patch 模式更安全,也更省 Token。
实际效果
社区实测数据:Agent 自动创建 3 个技能文档后,同类任务执行速度提升约 40%,工具调用次数减少约 30%。
翻译成人话:它的学习方式不是"记住答案",而是"提炼方法论"。
四、架构全景:不只是一个 Agent,是一个平台
模型层:真正的 Model Agnostic
Nous Portal / OpenRouter(200+ models)
├── OpenAI(GPT系列)
├── Anthropic(Claude系列)
├── Google AI Studio(Gemini系列)
├── z.ai / GLM / Kimi / Moonshot / MiniMax
├── Hugging Face(开源模型)
└── 自定义 OpenAI-compatible endpoint
切换方式:hermes model 一条命令,不改代码。
这不是简单的"多模型支持"。Hermes 内置了 Smart Routing——根据任务复杂度、成本预算、响应速度要求,自动选择最合适的模型。简单查询走便宜快速的模型,复杂推理走旗舰模型。
工具层:40+ 内置工具
| 类别 | 工具 | 说明 |
|---|---|---|
| 文件 | file ops | 读写、搜索、编辑 |
| 终端 | terminal | 命令执行,支持 6 种后端 |
| 浏览器 | Camofox | 基于 Camoufox 的反检测浏览器,带 VNC 调试 |
| 代码 | code execution | 沙箱执行,支持多语言 |
| 视觉 | vision | 图像识别和分析 |
| 语音 | TTS + voice mode | 语音合成和语音对话 |
| 子代理 | delegate | 生成子 Agent 并行处理 |
| MCP | MCP integration | 接入 Model Context Protocol 服务 |
| 智能家居 | Home Assistant | 控制智能设备 |
网关层:15 个平台适配器
Telegram、Discord、Slack、WhatsApp、Signal、Email、DingTalk、飞书/Lark、WeCom(企业微信)、Matrix、Mattermost、SMS、Home Assistant、Webhook、API Server。
不是"接入"这么简单——支持跨平台会话连续性。 你在 Telegram 上和 Agent 聊到一半,切到飞书继续,上下文无缝衔接。
运行环境:6 种终端后端
| 后端 | 场景 | 成本 |
|---|---|---|
| Local | 本地开发 | 免费 |
| Docker | 隔离环境 | 近乎免费 |
| SSH | 远程服务器 | 已有服务器 |
| Daytona | Serverless 开发环境 | 按需计费 |
| Singularity | HPC 集群 | 机构资源 |
| Modal | Serverless GPU | 按秒计费 |
环境空闲时自动休眠,不产生费用。一台 $5/月的 VPS 就能跑起来。
五、v0.8.0:最新版本的关键更新
4 月 8 日刚发布的 v0.8.0 被称为"The Intelligence Release",209 个 PR:
1. 后台任务智能通知
Agent 在后台执行长时间任务时,可以主动通过你选择的消息平台推送进度和结果。不用守着终端等。
2. MiMo v2 Pro 免费使用
通过 Nous Portal 免费提供 MiMo v2 Pro 模型——这是一个专为 Agent 场景优化的模型,工具调用和多步推理能力突出。
3. MCP OAuth 2.1
Model Context Protocol 支持 OAuth 2.1 认证,意味着可以安全接入企业级 MCP 服务。
4. 实时模型切换
在所有消息平台上支持运行时切换模型,不需要重启 Agent。
5. 安全增强(延续 v0.7.0)
- 主动扫描 URL 编码、base64 编码的潜在泄露
- 提示注入检测
- 凭证池轮换 + 自动故障转移
六、最佳实践:怎么用才能发挥最大价值?
场景一:个人开发助手(最轻量)
# 安装
pip install hermes-agent
# 配置模型(推荐先用免费的 Nous Portal)
hermes model set nous-portal
# 启动
hermes start
最佳实践:
- 前两周不要急着手动创建技能,让 Agent 通过自然交互自动学习
- 每周检查一次 Prompt Memory,删除过时信息
- 用
hermes skill list查看自动创建的技能,手动修剪低质量的
场景二:团队共享 Agent(中等规模)
用 Docker + API Server 模式部署,团队成员通过飞书/Slack 接入。
最佳实践:
- 用 Profiles 功能为不同项目创建独立上下文
- 配置凭证池(v0.7.0+),多个 API Key 自动轮换
- 敏感项目启用 Docker 终端后端,隔离代码执行环境
- 设置 Cron 任务自动执行日报汇总、代码审查等周期性工作
场景三:AI 研究 / RL 训练(高级)
Hermes 内置了 trajectory 生成和 Atropos RL 环境集成,可以用 Agent 的实际交互数据训练下一代工具调用模型。
最佳实践:
- 用 batch trajectory generation 批量生成训练数据
- 配合 Modal 后端使用 GPU 资源
- 利用 trajectory compression 降低数据冗余
场景四:智能家居中枢
通过 Home Assistant 集成,用自然语言控制智能设备,支持跨设备联动、定时任务。
最佳实践:
- 把常用的设备控制流程让 Agent 自动提炼为技能
- 用 Cron + 消息推送做"智能提醒"
七、与主流框架的技术对比
| 维度 | Hermes Agent | Claude Code | Cursor | AutoGPT | LangChain Agent |
|---|---|---|---|---|---|
| 持久记忆 | 四层分级 | 项目级 CLAUDE.md | 无 | 简单文件 | 需自建 |
| 自主学习 | 自动创建+迭代技能 | 手动配置 | 无 | 有限 | 无 |
| 模型支持 | 200+ | Claude only | 多模型 | OpenAI为主 | 多模型 |
| 部署形态 | 本地/VPS/Serverless | 本地 CLI | 桌面 App | 本地 | 库集成 |
| 消息平台 | 15个 | 无 | 无 | 无 | 需自建 |
| 终端后端 | 6种(含serverless) | 本地 | 无 | 本地 | 无 |
| Cron调度 | 内置 | 无 | 无 | 无 | 需自建 |
| 开源协议 | MIT | 不开源 | 不开源 | MIT | MIT |
| 成本 | $5/月VPS + 模型费 | $200/月订阅 | $20/月起 | 免费 + 模型费 | 免费 + 模型费 |
核心差异总结:
- vs Claude Code:Hermes 不锁模型、可远程部署、多平台接入、有自主学习。Claude Code 在纯编码场景的交互体验更丝滑。
- vs Cursor:完全不同的产品形态。Cursor 是 IDE,Hermes 是可编程的 Agent 平台。
- vs AutoGPT:同为开源 Agent 框架,但 Hermes 的记忆系统和技能进化在工程成熟度上领先一代。
- vs LangChain Agent:LangChain 是库,Hermes 是完整平台。如果你想快速搭建,Hermes 即装即用;如果你需要高度定制,LangChain 更灵活。
八、需要注意的风险和局限
诚实讲几个问题:
1. Token 成本不透明
自托管省的是平台费,但模型调用费是另一回事。社区有人记录:简单 Bug 修复约 187。Smart Routing 能优化,但你需要自己监控。
2. 记忆上限偏紧
Prompt Memory 的 3575 字符限制在复杂企业场景下可能不够。多项目并行时需要频繁切换 Profile。
3. 安全性需要持续关注
前身 OpenClaw 曾曝出 Token 泄露等安全漏洞。v0.7.0+ 在安全上投入很大,但开源自托管意味着安全责任在你自己。
4. 社区生态仍在早期
agentskills.io 的技能市场刚起步,质量参差不齐。短期内大部分技能还是得靠自己的 Agent 积累。
5. 发布节奏过快
3 周 5 个大版本——对尝鲜者是好事,对稳定性有要求的团队可能需要等 LTS 版本。
九、我的判断
Hermes Agent 代表了 AI Agent 赛道的一个重要方向转移:从"一次能做多少事"转向"同一件事能越做越好"。
过去两年,Agent 框架的竞争焦点是工具数量、平台接入、任务链长度——这些是"广度"。Hermes 提出了"深度"竞赛:通过记忆和技能进化,让 Agent 在持续使用中积累经验。
这更接近人类的工作方式。一个用了你三个月的 Hermes Agent,理论上比任何新开的 AI 对话都更了解你的工作习惯和代码风格。
对于三类人,我建议现在就试:
- 独立开发者 / 自由职业者——$5/月 VPS + 免费 Nous Portal 模型,性价比极高的私人 AI 助手
- 对 Claude Code 有"模型锁定焦虑"的团队——Hermes 的 200+ 模型支持是最好的对冲
- AI 研究者——内置 RL 训练管线,可以直接用 Agent 交互数据训练模型
不建议现在用的场景: 对稳定性要求极高的生产环境。等它出 LTS 版本再说。
项目信息 GitHub:github.com/NousResearch/hermes-agent(36,800+ Stars) 官网:hermes-agent.nousresearch.com 当前版本:v0.8.0(2026年4月8日) 许可证:MIT(完全免费开源) 安装:
pip install hermes-agent社区:discord.gg/NousResearch