卷王Agent,在我睡觉的时候又偷偷进步了

0 阅读17分钟

最近有个开源项目,短短两个月在Github上拿了100K的Star。

项目名叫Hermes Agent。

我在朋友圈和自己平时逛的IT社区经常刷到,于是我也围观了一下。

关注它倒不是因为这个数据,虽然两个月100K的Star确实有点夸张,但是数据这玩意儿,真想刷也不难。

真正让我对它感兴趣的,是它在官网上写的一句话,当时看到的时候我愣了一下。

「An Agent That Grows With You.」

一个会跟你一起成长的Agent。

说真的,这两年见过太多AI产品的slogan了,「什么重新定义生产力」、「你的第二大脑」。

牛皮吹到天上,一用就拉跨,被坑多了都快免疫了。

但这句话还是让我停下来想了一会儿,因为它戳中了一个我自己一直在想的问题。

这段时间我一直在高强度使用OpenClaw,也就是大家耳熟能详的小龙虾。

那个宣称越用越聪明的AI助理。

OpenClaw整体使用下来确实是能感觉到越用越聪明。

但,它的进化是我一点一点调教出来的。

说实话,这个调教的过程还挺让人难受的,深度使用过龙虾的小伙伴应该能懂我的感受。

Hermes Agent说它要解决这个问题。

我花了不少时间去研究了一下这个项目,越挖越觉得有意思。


先简单聊聊一下Hermes Agent这个项目的背景。

这个项目2025年7月份正式立项开发,一直到2026年3月初才正式在Github上开源第一个版本。

整整八个月。

要知道,在这段时间里,OpenClaw已经火到出圈,并且迭代了N个版本了。

在我查阅资料的过程中发现,Hermes Agent不是以个人名义发布的,而是一整个团队,公司名叫Nous Research。

这就很有意思了,Hermes Agent是一帮人搞的,花了八个月。

而OpenClaw的创始人Peter说他一个人做龙虾的第一个版本一共花了10天时间开发。。。

对于这事儿我实在太好奇了,于是我就去扒了下Nous Research这个公司的底细。


公司是在2023年注册的,团队核心成员总共就4个人。

这四个老六是AI的狂热爱好者,在2022年通过Discord(国外一个社交APP)认识,然后天天在群聊里吹牛打屁聊AI。

四个人的出身背景我这里就不多展开了,感兴趣的朋友可以自行去了解。

他们钻研的方向其实是开源模型微调,公司成立之后的核心业务也是开源模型研究。

Hermes是他们的核心模型名字。

这个名字源自希腊神话中的信使之神,传说中,Hermes(赫耳墨斯)是一个能在不同世界之间传递信息的角色。

根据Nous Research核心团队的介绍,选这个名字,是为了证明团队对「连接」和「沟通」的重视。

不巧的是,这个名字和国际大牌爱马仕撞名了。

于是大伙现在也管Hermes Agent叫爱马仕。

从2023年到2025年,Hermes一共推出了4个大版本,几乎所有的迭代都在围绕模型的强化学习能力展开。

直到2025年下半年,Nous Research开始进军Agent领域,从模型公司正式转型为Agent公司。

为了建立一套Agent自学习机制,Nous Research团队花了八个月时间,在这之前,他们已经积累了3年的模型强化学习经验。

这套自学习机制就是Hermes Agent的核心卖点,也是区别于其它Agent的地方。

整套机制可以概括为五步学习循环(执行、评估、提炼、细化、检索)和三层记忆系统(程序性记忆、情景记忆、语义记忆)。

我试着用一个场景来说清楚这个东西。


大家小时候应该都学过自行车。

刚开始学,肯定是没有任何经验,随便蹬一蹬,尝试找到平衡。

学的过程中可能经常摔倒或者失去平衡,这时你并不完全知道该怎么做,但是你一直在做,积累经验。

这是第一步—执行。

摔多了之后,你开始察觉到哪里不对劲了,开始回想自己是不是哪里发力有问题,是踩踏板踩的不够用力还是车头扭的角度不对。

这是第二步—评估(检查是否摔倒了,做得怎么样)。

分析可能导致摔倒的原因之后,你开始总结一些简单的技巧,比如感觉要摔的时候可以用力踩踏板提高速度维持平衡。

这是第三步—提炼(从失败中吸取教训,总结技巧)。

经过重复前面的步骤后,你骑的越来越熟练,开始研究一些细节。

比如下坡之前不能踩踏板提速了,要先用手刹减减速,这样下坡的时候才好控制平衡。

这是第四步—细化(进一步改进并调整技巧)。

当你越骑越熟练,之前的技巧和细节都已经变成了肌肉记忆和经验。

这时遇到各种状况,你不用再去绞尽脑汁分析了,稍微回忆一下就知道怎么处理。

这是第五步—检索(快速调取已有经验,避免从头开始)。

这就是Hermes Agent的五步学习循环。


想要把自行车骑好,你还需要知道一些规律。

比如自行车只有前后两个轮子,所以重心要保持在中间。

比如速度与稳定性是正相关的,速度越快越不容易失衡。

这些不会改变的常识,也就是第一层记忆—语义记忆

对应到Hermes Agent里就是USER.md和MEMORY.md。

前者定义了你这个人是怎么做事的。

后者定义了这个世界是怎么运作的。

当你起步的时候,要提速度。

骑行的时候视线要尽量看远处。

转弯的时候身体要往反方向稍微倾斜才能维持车子的重心。

这些技巧你不可能天生就知道,而是通过实践摸索总结出来的。

这就是第二层记忆—程序性记忆

对应到Hermes Agent里,就是一个又一个的Skill。

它的特点是,可以被不断优化。

“上周二在小区门口拐弯的时候摔了一跤,因为当时低头看手机。”

“有一次下坡骑太快,刹车控制不住差点撞到人。”

这些不是规则,而是事件。

这些事件可以被回忆,从中吸取经验教训。

这就是第三层记忆—情景记忆

对应到Hermes Agent里,就是会话搜索和历史摘要。

这些事件可以被回忆,被总结,然后影响你的Skill。


把三层记忆串在一起,你会发现一个很关键的事。

自行车之所以能越骑越好,是因为骑车的人在不断把经验结构化。

摔倒一次,如果只是觉得疼,那就只能是一段经历。

但如果你把它变成一句“骑的太慢了,平衡不好控制”,那就变成了能力。

Hermes Agent做的,本质上就是把这个过程工程化了。

听着感觉是没啥,但跑一些重复流程可以做到提高40%的效率。

这个数字不是我瞎吹的,有实际数据支撑。

而且背后的GEPA自演进技术被ICLR 2026接收了。

也就是说,学术界给了认可的。


写到这里突然想起来,以前大学时候学认知心理学的时候有看到一个关于人类记忆的分类。

在认知心理学中,人的记忆分成感觉记忆、短时记忆和长时记忆。

当接收到外界信息时,会形成感觉记忆。

这个记忆存在的时间非常短,如果不做任何控制,可能几十秒内就会消失。

如果在感觉记忆消失之前存在「思考」这个动作,那么感觉记忆会变成短时记忆。

短时记忆可以被强化形成长时记忆,长时记忆也会反过来影响短时记忆。

跟Hermes Agent的三层记忆系统运行机制大差不差。

说明它这么设计不是巧合,而是基于认知科学理论支撑的架构设计。

所以「grows with you」这句话,确实不是吹牛,它在描述一个架构决策。


但是,我要说个但是。

坦白的讲,我在用Hermes Agent的时候发现这个学习循环有一个挺严重的问题。

而且Nous Research自己也承认了这个问题。

Agent的自我评估不准。

他们自己的报告里写的原话是,Agent「几乎总是认为任务成功完成了,即使实际并非如此」。

你想想这意味什么。

学习循环的第二步是「评估」,Agent要判断这次任务做得好不好。

如果它永远觉得自己做得不错,那从一个「实际失败但Agent认为成功」的任务里提炼出来的Skill,就是一个错误的流程。

这就像一个学生,每次考完试都觉得自己发挥得挺好,结果成绩单发下来才发现问题。

更操蛋的是,这个学生考完还觉得自己特牛逼,把解题方法整理成了笔记,准备下次考试继续用。。。


还有一个问题。如果你觉得Hermes Agent提炼的东西有点毛病,肯定会自己动手改Skill文档。

但下一次学习循环可能会把你的修改覆盖掉。

框架默认假设Agent的学习结果比人工调整更优。但实践下来会发现,这个假设有时候无法成立。

我觉得这个得说清楚。

不是为了黑它,是因为这个缺陷直接关系到它对用户的承诺到底能不能兑现。

而且公平地讲,这也不完全是Hermes Agent一家的问题。

让一个AI系统准确判断自己的输出质量,这个问题在学术上叫「元认知」,是整个AI领域的开放性挑战。

只不过,Hermes Agent把学习循环当成了最大的卖点,那么这个缺陷对它的影响肯定就比其它家的更大。

grows with you的前提是,它得知道自己哪里没做好。

这一步,目前还没完全走通。


说完Hermes Agent本身,顺着再聊一个更大的事,它和OpenClaw之间正在上演的一场路线之争。

OpenClaw大家应该都知道了,刚过完年那会儿火到我爸妈都知道这玩意儿。

开源Agent框架里的绝对王者,Github上360K+的Star,50多个消息平台集成,44000多个社区技能。

如果说2026年上半年有哪一个开源项目统治了Agent赛道,那毫无疑问就是OpenClaw。

但Hermes Agent走了一条完全不同的路。

OpenClaw的设计哲学是「网关先导」,它的核心理念是,Agent的价值来自它能连接的外部系统的广度。

所以它疯狂地接入各种平台,WhatsApp、Telegram、Discord、Slack、邮件、日历,能连的全连上。

你需要什么工具,ClawHub上去找就行,接近60000个Skill,总有一个适合你。


Hermes Agent的设计哲学是「Agent先导」。

它的核心理念是,Agent的价值不在于它能触达多少外部系统,而在于它自身能不能学习和成长。

所以它只接入了15个平台。

15个平台就够了,关键是Agent要能从每次交互中变得更强。

两种截然不同的设计哲学,其实从不同方向回答了同一个问题,一个好的AI Agent应该是什么样的。

推特上有个技术大V在折腾了一个多月之后给出了一个我觉得特别精辟的评价。

他说,「最优方案是OpenClaw负责编排,Hermes负责执行,OpenClaw来规划、拆解、排列任务,Hermes来做那些需要快速重复的具体执行」。

这个评价本身就说明了这两个东西不是替代关系,是互补关系。


还有一个不能忽略的考量维度,安全性。

今年3月,OpenClaw在4天内爆出了9个高危CVE漏洞,其中好几个CVSS的评分达到了9.9甚至10分。

在CVSS这套漏洞等级评价体系中,分数越高,漏洞越危险,满分10分。

13万只小龙虾实例裸奔在公网上,遍布82个国家,想想都害怕。

更让人担心的是ClawHub这个Skill市场,初扫2857个Skill里有341个是恶意的,占12%。

后来生态扩大到1万多个Skill,恶意比例涨到了20%。

整整五分之一。

而Hermes Agent截至今年4月中旬,零个Agent相关CVE漏洞。

Docker加固容器、内置提示词注入扫描、凭证过滤、只读根文件系统。

整个产品设计的安全意识明显更强。

不过也要说句公道话,Hermes Agent才上线两个月,OpenClaw已经跑了大半年了。

安全漏洞这个东西,一定程度上是时间的函数,用的人越多、暴露的时间越长,被发现的问题就越多。

Hermes Agent现在零CVE,不代表永远零CVE。


这两个Agent框架,我自己都有在用,也有一些自己的使用感受。

短期来看,还是OpenClaw的广度赢。

OpenClaw能低成本帮你搞定日程、消息、自动化,这些是立竿见影的价值。

长期来看,Hermes Agent的深度赢。

为什么呢?

你想想看,当AI Agent不再是一个新奇玩具,而是你每天生活工作中真正依赖的生产力工具的时候,你更需要什么?

是一个能连很多外部功能,但每次犯错都得你指出来告诉它怎么改的万能AI管家,还是一个功能没那么全面,但能自己主动记得你的偏好、知错能改、精益求精的伙伴?

这不仅仅是两个Agent产品在竞争。

而是两种关于「AI应该怎么陪伴人」的设计哲学在竞争。


还有个事不得不提,在深挖Hermes Agent的时候,不小心吃到了个大瓜。

2026年4月,一个叫EvoMap Evolver的项目公开指控Hermes Agent借鉴了它的自进化架构,但却没有标注引用。

EvoMap说自己的项目比Hermes Agent公开发布早了36天。

Nous Research这边的回应挺让人意外的。

他们说自己的GitHub仓库创建于2025年7月,比EvoMap早得多,自称是这套架构的创始人。

然后,他们要求EvoMap的作者删掉自己账号。。。

我看到这个回应的时候愣了一下。

技术上谁先谁后,我说不好,两边都有自己的说法。

但在开源社区里,让别人删号这种话是不能乱说的。

开源的基因是开放和协作。

你可以据理力争,可以拿出证据反驳,但你不能用这种对抗姿态去回应一个同行。

与此同时,Reddit和X上也有人发现了疑似推广的行为,一批刚创建几天的新账号在密集讨论Hermes Agent,除了Hermes,其它什么内容都不聊。

于是社区有人开始质疑是不是Hermes Agent是不是雇了一批水军,在给自己造势。

再加上团队本身其实是有一些Web3融资背景的,就更可疑了。

于是社区开始出现一些负面的声音,「Hermes Agent到底是一个真正的AI项目,还是一个披着AI外衣的割韭菜项目?」


我自己的判断是这样的。

技术好不好,和团队靠不靠谱,是两个问题。

Hermes Agent的技术创新是实打实的。

三层记忆系统的设计有认知科学基础,GEPA技术有ICLR论文背书,Hermes系列模型有3300万次下载的记录。

这些东西不是营销能刷出来的。

但他们对于EvoMap的这种回应方式,在开源社区里是大忌。

「让同行删号」这种带有强烈个人情绪的言论一旦被带节奏,很容易在社区里失去信任。

一个产品的成长不只靠技术,还靠信任。

而信任,某种程度上也是一种记忆,存在于互联网社区的记忆。

一个开源项目,如果失去了社区的信任,那一定是走不远的。


写到这里,我想把视角拉长一点。

从石器到蒸汽机到计算机,工具的进化有一条不太被注意到的主线。

石器不会因为你用得多而变锋利。

蒸汽机不会因为你开得久而变高效。

计算机可以通过软件更新变得更好,但这个「更新」的动作一直以来都需要人类自己来完成。

你得写代码,你得发版本,你得手动修bug。

AI Agent现在在试图跨越的那条线,是让工具自己更新自己。

Hermes Agent的学习循环,不管它现在做得好不好,它提出的那个问题是对的。

工具能不能通过使用经验来自我改进,而不需要人类每次都介入?

如果能,那我们跟工具的关系就变了。

以前,工具是工具,你用完放下,下次拿起来它还是老样子。

以后,工具可能会像一个新同事,刚来的时候什么都不懂,你得手把手教。

但教几次之后,它开始有自己的记忆,有自己的节奏,甚至有自己的判断。

Hermes这个名字本身就很有意思,希腊神话里的信使之神,奥林匹斯山上跑得最快的那位。

如果你认真去了解过希腊神话,会发现赫尔墨斯真正厉害的地方不是速度。

而是他记得每一次传递的内容,知道该用什么方式跟不同的神说话。

对宙斯要恭敬,对阿波罗可以开玩笑,对冥王哈迪斯要谨慎。

他是一个有记忆的信使。

这其实就是Hermes Agent想做的事。

回到开头那句话。

An Agent That Grows With You.

两个月前,这只是一句写在官网上的slogan。

两个月后,Github上100K的Star说明有很多人相信了这个承诺。

十个大版本的迭代速度也足以说明团队在拼命兑现。

三层记忆系统和GEPA技术足以证明这不是空谈。

但一个Agent能不能真的跟你一起成长,最终不取决于它的记忆系统有多精巧,不取决于它的学习循环有多优雅。

而取决于一件更基础的事。

它能不能在犯错的时候,诚实地知道自己错了。

这一步,Hermes Agent还没完全走到。

但方向,我觉得是对的。

毕竟,成长这件事,不就是从知道自己哪里不行开始的嘛。


如果觉得读完有收获,随手点赞👍、收藏✨、转发三连~

如果想第一时间收到推送,也可以给我点个关注➕~

感谢你阅读我的文章。