我用了一周Hermes Agent,聊聊它的真实表

0 阅读7分钟

我用了一周Hermes Agent,聊聊它的真实表现

4月初Hermes Agent冲上GitHub Trending第一的时候,我点了个Star但没急着用。

原因很简单:我手上有Cursor和Claude Code,一个负责日常编码,一个负责大规模重构,工作流已经很顺了。再加一个工具,不是增加效率吗?

后来看到一篇对比文章说了一句:"Claude Code当白班——你在场做的事;Hermes当夜班——你不在场也能做的事。"

这句话让我改主意了。如果Hermes真能做到"不在场也能做事",那确实填补了我工作流里的一个空白。

上周花了几天部署和试用,下面是我的一周实测记录。


Hermes Agent到底是什么

30秒说清楚:它是一个可以部署在你自己服务器上的AI Agent。不是IDE插件,不是浏览器插件,是一个常驻运行的自主智能体。

几个关键词:

  • 自托管:跑在你自己的服务器上,数据不出你的机器
  • 持久记忆:跨会话记忆,不是聊完就忘
  • 自动技能:用着用着它会自己"学会"新技能,下次类似任务直接用
  • 多平台接入:可以接入微信、钉钉、飞书、企微、Telegram等15+平台

跟Cursor和Claude Code最大的区别在于:后两者是"你在的时候才工作",Hermes是"24小时待命,随时响应"。


部署过程:比预期顺利,但有几个坑

我部署在阿里云ECS上(跟我的Dashboard同一台机器),系统是Alibaba Cloud Linux 3。

官方推荐Docker部署,确实是最省事的方式。但如果你的服务器资源有限(比如只有2核4G),Docker会比较吃力,建议直接用Python环境跑。

部署踩坑

坑1:模型选择。 Hermes不自带模型,需要你自己接入。官方支持200+模型,我试了几个:

  • Claude Sonnet:效果最好,但API贵,而且国内访问需要中转
  • Qwen3.6-Plus:国内直连,免费额度够用,中文能力强
  • DeepSeek V3.2:性价比最高,代码能力不错

最终选了Qwen3.6-Plus做日常对话,DeepSeek V3.2做代码任务。省钱,国内直连,够用。

坑2:消息平台接入。 我尝试接入企业微信,配置过程不算复杂,但企微的自建应用审批流程比较慢(需要管理员审批)。最后先用Webhook方式接通了。

坑3:记忆模块配置。 Hermes的持久记忆依赖向量数据库,默认用ChromaDB,轻量够用。但如果你想用PostgreSQL(更稳定),需要额外配置pgvector扩展。

从开始部署到能正常对话,大概花了半天。不算快,但也没遇到特别难搞的问题。


一周实测:我让它做了什么

Day 1-2:代码Review助手

我给Hermes丢了一个项目仓库,让它帮我做code review。

体验跟Cursor/Claude Code完全不同。Cursor是你在编辑器里选中代码让它看,Claude Code是你在终端里指挥它干。Hermes是通过企微消息跟它说:"帮我review一下今天提交的PR #42。"

它去拉了代码,过了一会儿在企微里回复了一份review报告。

报告质量中等偏上。它发现了两个我review时没注意到的潜在问题(一个N+1查询,一个竞态条件),但也漏掉了两个明显的问题(一个空指针,一个硬编码的环境配置)。

结论:能辅助review,不能替代人工review。

Day 3-4:定时监控+告警

这个是Hermes的强项。

我给它配了一个定时任务:每天早上9点检查一下服务器状态(磁盘空间、内存使用、Nginx日志里的异常请求),如果有问题通过企微通知我。

配置完之后,第二天早上9点准时收到了一条消息:

"磁盘使用率82%,建议清理。Nginx日志中发现23个404请求,集中在/api/v1/legacy路径。"

这个功能Cursor和Claude Code做不到,因为它们不是常驻运行的。Hermes可以。

这让我开始觉得它有用。

Day 5:知识库维护

Hermes的"自动技能"功能我重点测了一下。

我连续两天问它一些重复性的问题(项目的部署流程、API文档链接、数据库表结构等),到了第三天,它开始主动"记住"这些信息,不需要我重复描述上下文。

具体表现:第一次问"项目的部署流程是什么",它需要去读项目文档才能回答。第三天再问,它直接给了答案,并标注"这是我从之前的对话中学到的"。

这个"越用越懂你"的感觉,确实是Cursor和Claude Code给不了的。后两者的记忆是会话级别的,关掉窗口就没了。

Day 6-7:自动技能学习

最有意思的功能。

我让Hermes帮我写一个"生成周报"的技能。我描述了一下周报的格式和我想要的字段(本周完成、下周计划、风险项),然后手动执行了一次。

第二次,我发现它自己把这个流程抽象成了一个可复用的技能。之后我只需要说"生成本周周报",它就能直接按那个格式生成,不需要再描述格式。

这个自动抽象能力是Hermes的核心卖点。它不是简单记住你的对话,而是从对话中提炼出可复用的"技能"。


跟Cursor和Claude Code的对比

我用了一周之后,大概摸清了三者的边界:

日常写代码:Cursor。 交互体验最好,编辑器深度集成,"写代码"这件事上没有比它更顺手的。

大规模重构/复杂任务:Claude Code。 Agent能力强,自主执行复杂任务的能力是三者里最强的。SWE-bench 80.8%不是吹的。

7x24监控/自动化任务:Hermes。 常驻运行,能做定时任务,能主动通知。这是前两者完全覆盖不到的场景。

所以不是三选一,是互补的。我现在的工作流变成了:

白天:Cursor写代码 → Claude Code做重构 → Git提交
夜里:Hermes监控服务器 → 收集异常 → 早上通知我
日常:Hermes维护知识库 → 自动生成周报/文档

缺点和局限性

不打算只说好的,说几个明显的问题。

代码能力不如Claude Code。 这是模型能力的差距,不是框架的问题。Claude Code背后是Anthropic最强的模型,Hermes接的是你自己选的模型。如果你接的是国产模型,在复杂代码任务上确实有差距。

配置门槛高。 部署不复杂,但调优很麻烦。模型选择、记忆配置、技能学习策略、消息平台接入,每一个都需要花时间调试。不像Cursor那样装上就能用。

技能学习偶尔会"学偏"。 我让它学一个代码部署的流程,它把某个错误配置也记住了,之后每次部署都尝试用那个错误的方式。我花了两天才发现这个问题,手动纠正了三次才改过来。

资源占用不低。 常驻运行意味着它一直在吃内存。2核4G的服务器跑Hermes + 向量数据库 + 消息服务,内存使用率经常在70%以上。


适合什么人用

基于一周的体验,我觉得Hermes Agent适合这些人:

  • 有自己的服务器,想要一个7x24小时的AI助手
  • 有重复性工作需要自动化(日报、周报、监控、知识库维护)
  • 团队需要一个共享的AI智能体(不像Cursor是个人工具,Hermes可以多人通过消息平台共用)
  • 对数据隐私有要求(自托管,数据不出你的机器)

不适合这些人:

  • 只想找AI工具写代码的(Cursor更合适)
  • 没有服务器或不想折腾部署的
  • 需要最强代码能力的(Claude Code更合适)

我的最终选择

Hermes Agent我没有放弃,但我也没有把它当成主力工具。

它的定位很清晰:补足Cursor和Claude Code覆盖不到的那部分——自动化、监控、持久记忆。

如果你跟我一样已经有一个顺手的AI编程工作流,Hermes不是来替代它们的,是来补充的。值得花半天部署试试,不行就关掉,反正开源免费。


部署文档和配置文件我整理了一份,放在项目里了。有部署问题可以留言,这一周踩的坑我都记着。