Mirix初体验

198 阅读6分钟

让AI拥有“真·记忆”?我深度体验了爆火的开源项目 Mirix

编者: 你是否也曾想过,如果电脑能记住你看到的一切,并在你需要时随时告知,工作效率会提升多少?最近,一个名为 Mirix 的开源项目引爆了技术圈,它声称能为 AI 智能体构建一个多模态的长期记忆系统。这究竟是未来个人助理的雏形,还是又一个技术噱头?我花了两天时间,亲手部署并深度体验了它,这是我的第一手报告。

一、开箱初体验:把“数字记忆”助理请进我的电脑

对于一个前沿项目,安装部署的友好度是第一道门槛。Mirix 在这方面表现如何呢?

  1. 准备工作与安装过程
  • 当前快速安装仅支持macOS,Windows和Linux用户可选择开发安装,具体请参照官网文档进行安装

  • 硬件/系统环境:

    • MacBook air M1 2020
    • macOS:15.1.1
  1. 资源占用情况:

    1. 静默状态下 CPU 占用率:较低

    2. 内存占用:300MB左右

    3. 存储占用:

      1. 日志:每次启动会生成新的日志文件,日志记录请求的请求记录和错误信息
      2. 截图:张/1.5s,当截图后,将图片发送到内置的后端服务以及通过gemini模型进行处理,如果处理失败的文件将被保存在安装目录中,出来已成功将会自动删除

注意: 当前Memory Manager Model 还无法使用除了gemini 以外的模型

  • 初步感受:

    • 监控屏幕可通过选择不同的窗口/屏幕,可以保护隐私内容不被收录进mirix
    • 操作简洁,监控过程中无感
    • 缺少多语言配置、异常情况无提示

二、核心功能实战:我的 AI 助理究竟有多“记仇”?

接下来是重头戏。我设计了几个日常工作和生活中最常见的场景,来测试 Mirix 的记忆力和理解力。

场景一:基础信息检索——“我刚刚看过啥?”

我首先打开了一篇关于“人工智能发展史”的网页长文,快速浏览了大约5分钟后关闭。然后,我向 Mirix 发起了提问。

我的提问:

“我刚才看的那篇文章里,提到了AI经历了哪些发展阶段?”

Mirix 的回答:

未清除历史对话的情况下,会出现乱回答的情况

清除历史对话后

图1:基础信息检索测试

我的评价: 能正确识别阅读文章中的内容

场景二:跨应用记忆——“我的工作连贯吗?”

这个场景模拟了真实的工作流切换。我先在 飞书 中写下了一个项目计划,然后切换到 VS Code 中编写相关代码。

我的提问:

“我刚刚在 飞书里写的那个项目计划,第三个里程碑(Milestone 1)是什么?”

Mirix 的回答:

我的评价: 回答时默认以中英文混合输出,内容基本正确

场景三:多模态理解——“那张图里画了啥?”

这是我最期待的测试!我打开了一个介绍特斯拉 Cybertruck 的网页,上面有大量的图片和规格参数图表。

我的提问:

“刚刚那个 Cybertruck 的介绍页面,车子的侧面图是什么样的?它有哪些特别的设计?”

Mirix 的回答:

图2:多模态记忆能力测试

我的评价: 对图形的识别和理解到位,但回复的较为简答,应该和模型尺寸有关

场景四:失败与边界测试

没有一个产品是完美的。我也尝试了一些“刁钻”的问题,来测试它的能力边界。

我的“刁难”:

cybertruck 的尺寸数据有吗?

Mirix 的表现:

对于图文结合中较为详细的数据,没有被识别出来

三、技术探秘:聪明“大脑”是如何构建的?

体验了神奇的功能,我不禁好奇,Mirix 是如何实现这一切的?通过阅读它的论文和部分源码,我大致理解了其核心原理。

简单来说,Mirix 的“大脑”由两个关键部分构成:

  1. 六大记忆模块: 就像人脑有海马体、杏仁核各司其职一样,Mirix 设计了六种不同的“记忆体”,分别存储不同类型的信息(例如,情景记忆负责记住“发生了什么”,语义记忆负责理解“这是什么意思”)。
  2. 多智能体协作: 系统里有多个“智能体”角色,比如“观察员”负责记录屏幕,“记忆组织者”负责将信息存入不同记忆区,“问答员”则负责提取记忆来回答你的问题。它们相互协作,构成了高效的记忆管理系统。

图3:Mirix 的多智能体记忆架构(图片来源:Mirix 官方文档)

这种设计的精妙之处在于模块化可扩展性,相比于把所有能力都塞进一个大模型,这种架构更灵活,也更符合我们对复杂智能系统的想象。

四、深度思考:Mirix 将带我们走向何方?

经过深度体验,我尝试总结一下 Mirix 的优劣,并对它的未来做一些思考。

  1. 核心优势 (Pros):

    1. 强大的多模态能力: 在对屏幕截图进行识别的能力较为优秀
    2. 巨大的潜力: 在当前对于清晰的图像文本识别不错的,但是对于图像的细节内容分析存在不足
  2. 不足与挑战 (Cons):

    1. 隐私担忧: 虽然截图处理是在本地,但当前仍然使用云端大模型来处理数据,仍然存在数据隐私问题。

    2. 记忆准确性: 当前对于截图内容的分析还不够细致,在多轮对话中存在记忆和问题混乱回答的问题

    3. 系统稳定性:

      • 当前系统稳定性不足,存在运行一段时间即进入加载记忆的情况,但一直无法加载成功。
      • 在进行对话时,如果存在网络中断或者其他情况,无正确的提示反馈
  3. 未来畅想 我仿佛看到了下一代操作系统的雏形。想象一下:

    1. 超级个人助理: 你的电脑比你自己更懂你,能主动帮你整理资料、撰写报告、甚至预测你的需求。
    2. 个性化教育: AI 可以观察学生的学习过程,了解其知识薄弱点,并提供量身定制的辅导。
    3. 加入音频输入的能力: 在加入音频数据后,数据完整性将得到大大的提升

五、总结

总而言之,Mirix 给我的感觉,是惊喜远大于其现有的瑕疵。它不是一个遥不可及的未来概念,而是一个已经可以下载、可以运行、可以亲手体验的“未来工具”。它让我们真实地瞥见了“通用人工智能助理”时代的一缕曙光。

虽然离成为人人可用的成熟产品还有很长的路要走,但 Mirix 所展示出的方向和潜力,足以让我这个数字世界的“老兵”感到兴奋。


最后,附上项目链接,强烈推荐有动手能力的同学亲自尝试一番:

互动话题: 如果你拥有这样一个AI记忆助理,你最希望它帮你记住什么?欢迎在评论区留下你的脑洞!