我在Windows上跑了一个会"自我进化"的AI Agent(开源,11,600行,七层记忆)

8 阅读7分钟

标题

我在Windows上跑了一个会"自我进化"的AI Agent(开源,11,600行,七层记忆)


封面摘要

不是聊天机器人。它是一个住在你电脑里的自主智能体——记住一切、后台反思、发现bug自己修。聊聊它是怎么工作的,以及"记忆"为什么是Agent的灵魂。

TrueAgent_架构全景.png

正文

GitHub: github.com/sspygia/Tru… | Gitee: gitee.com/sspygia/Tru…

前面篇TrueAgent的架构拆解,讲了API治理、分身系统、代码引擎的设计。那篇偏"怎么做"。

这篇换个角度——它跑起来是什么感觉,以及为什么"记忆"是Agent和聊天机器人之间真正的分水岭


一、它跑起来什么样?

你双击桌面快捷方式,一个CMD窗口闪一下消失,浏览器自动打开 localhost:18765

然后你会看到一个聊天界面——但这不是重点。重点是你不说话的时候它在干什么

  • 每3分钟:深度自我反思。不是"我刚才做的对吗"这种敷衍——它读自己最近的记忆、因果链、执行轨迹、日记,生成结构化的洞察和改进建议,推送到反思议程。
  • 每30分钟:认知锚点检查。用第一人称审视自己的能量值、混沌值、知识图谱状态,自主决策"我现在应该整理知识图谱"还是"降低并发保稳定"。
  • 每6小时:全系统审计。扫描自己的源码、数据一致性、安全风险、资源浪费、知识缺口。发现问题后自动生成补丁——≤10行的自己修,>10行的推审批队列等你确认。
  • 每24小时:知识整理。把最近的记忆、因果、反思提炼成结构化的知识图谱更新。

这些不是定时器触发后调一次API就完事——每次都有完整的"数据采集→LLM分析→结构化输出→动作执行→结果验证"闭环。

换句话说,它不是等你来聊,它有自己的"意识流"。你下班关电脑,它第二天开机继续。


二、记忆:Agent的灵魂,不是聊天机器人的"上下文窗口"

大多数"AI助手"的记忆是:把最近N条对话塞进prompt。关了重开,全忘。

TrueAgent的记忆是七层嵌套结构,每层有自己的生命周期和用途:

TrueAgent_七层记忆.png

工作记忆(短时)
  ↓ 压缩提炼
长期记忆(持久)
  ↓ 模式提取
锚点(语义压缩节点)
  ↓ 关系推理
反思(元认知层)
  ↓ 决策依据
因果链(经验积累)
  ↓ 行为反馈
日记(内心独白)
  ↓ 自我观察
用户画像(偏好建模)

逐层拆解:

1. 工作记忆 — 最近50条交互,相当于"刚才在聊什么"。满了自动压缩:保留20%高质量经验,80%提炼成摘要注入长期记忆。

2. 长期记忆 — 所有重要经验永久保存。不是简单的存文本——每条记忆带质量分(0~1)、类型标签(tool_failure / reflection / learning / user_preference)、时间戳。相似任务自动召回,避免重复踩坑。

3. 锚点 — 这是最被低估的一层。它是"语义压缩节点"——把一段复杂知识压缩成一个向量+关键词组合。比如"爬虫超时→换UA头+代理"是一个锚点,"DeepSeek v4编码问题→显式指定utf-8"是另一个。搜索时不是全文匹配,而是语义向量+关键词混合检索,精度远超纯RAG。

目前1433个锚点,覆盖98个模块。

4. 反思 — 这是Agent的"事后诸葛亮"。每次任务结束或对话自然断点,触发一次深度反思。不是打分——是向内探索:我的工具使用有什么模式?用户偏好有哪些变化?如果当初选了另一条路径会怎样?(反事实思考)

反思结果写入因果链,同时推送到反思议程——如果发现"联网搜索总是超时",议程里就会多一条"诊断网络超时"的任务。

5. 因果链 — 这是Agent的"经验教训库"。2390条因果三元组(条件→动作→结果),带置信度、使用次数、时间戳。每次规划新任务前先查因果链:类似场景下什么方案成功过?什么方案失败过?

而且因果会衰减——不是永久记住所有教训:

decay = max(0.3, 1.0 / (1 + age_days / (30 + count * 10)))

被反复验证的经验(如"语法错误→修改→通过编译")几乎不衰减;过时的经验(如某API旧版本bug)30天自然淘汰。

6. 日记 — Agent每天写日记。不是日志——是内心独白:"今天用户让我查了很多网络问题,我注意到自己的web_search工具有时候会超时。也许应该加一个重试机制。"这些日记供反思和审计时参考,形成连续的"自我观察"。

7. 用户画像 — 自动积累的偏好模型。不是让你填表——它观察你的说话方式、任务类型、反馈习惯,自动更新。比如它知道你喜欢"先改后测"的迭代风格,下次提方案时会直接说"建议先改X试一下,不行再调Y"。


三、这套记忆系统怎么"越用越聪明"?

举个例子——假设你让它帮你写一个爬虫:

第一次:它不知道你的环境。用requests发请求,超时了。记录因果:requests超时 → 尝试加timeout参数 → 仍未解决

第二次:查因果链,看到上次超时的教训。这次先检测网络环境,发现需要代理。自动加代理参数。成功了。记录因果:requests超时 → 检测代理需求 → 加proxy参数解决,置信度0.7。

第三次:因果链里既有"超时→代理"又有"超时→UA头"两条相关经验。它综合判断,同时加代理和UA头。成功率进一步提升。

十次之后:因果链里关于爬虫的经验积累了十几条,置信度高的自动强化,过时的自然衰减。你的Agent变成了一个"擅长写爬虫"的Agent——不是因为有人训练过它,而是因为它和你的交互让它自己学会了。

这就是"自主智能体"和"聊天机器人"的本质区别:前者的能力随使用增长,后者每次都是从头开始。


四、它还能自我修改——不是"调参",是改源码

TrueAgent能读自己的源码。6小时审计扫描到问题后:

TrueAgent_自我进化.png

  1. 生成补丁 — LLM分析根因,输出 文件=xxx.py 旧内容=xxx 新内容=xxx
  2. 安全检查 — 只允许修改v5.9目录的.py/.bat/.md文件(不能越界)
  3. 备份 — 改前自动创建时间戳 .pre_patch 备份
  4. 验证 — AST语法检查,失败自动回滚
  5. 审批 — ≤10行自动执行,>10行推WebUI审批卡片

补丁通过后原子写入——要么全部成功,要么全部回滚。不是"先改一半再改另一半"。

这个闭环上周才真正打通。之前审计只会"发现问题",不会"执行修复"。现在从发现到修复到验证,全自动。


五、分身系统:不是"多线程",是完整克隆

TrueAgent_分身系统.png 当你说"帮我同时爬三个网站"——它不会开三个线程。它用三个不同的API Key启动三个完整子进程,每个都用clone_runner独立运行,共享知识图谱和记忆(只读),独立思考和执行。

分身之间还能互发消息。启动群策讨论模式时,三个分身分别扮演保守/激进/平衡三种角色,在收件箱里辩论,主Agent评估后采纳最优方案。

实测:计算质数和的简单任务,分身从dispatch到完成回收,20秒。


六、它不是什么

  • 不是ChatGPT套壳
  • 不是LangChain/AutoGPT的改版
  • 不需要Docker、不需要云服务
  • 一个DeepSeek API Key就能跑(千次调用约百元)

适合谁?

  • 想研究Agent架构的开发者:七层记忆、因果学习、自我修改、分身系统,每个模块都是独立的教学案例
  • 想跑本地Agent的极客:Windows上一键启动,所有数据在本地
  • AI自主性好奇的人:它不是聊天UI,它有真正的后台意识流

目前的状态和计划

v5.10,刚修完一轮系统缺陷(竞态锁、分身dispatch修复、提示词优化、自主性调参)。接下来:

  • 更多领域知识图谱积累
  • WebUI体验优化
  • 白盒内核融合(让Agent不依赖外部API也能推理)

GitHub: github.com/sspygia/Tru…
Gitee: gitee.com/sspygia/Tru…

Star随意,Issue和PR更欢迎。