3月12日,OpenClaw 3.11 版本重磅发布:多模态记忆来了!
此消息一经发出,也是引起众多“养虾户”热议:“我的小龙虾终于能记住我发的照片了”、“Agent 记忆又迈出一大步”,但苦于官网文档上复杂的配置过程以及 Gemini 模型部署的艰辛,另许多爱好者望而却步。现在可以一键部署插件 metainsight-context-engine,带你快速解锁多模态记忆!
一、多模态记忆,到底强在哪?
其实答案很简单——让 Agent 的“记忆”更丰富、更立体!
以前的 Agent,大多只靠文本记东西,就像只用笔记本写知识点,不仅片面还容易忘;而多模态记忆直接融合了文本、图片、音频等多种形式,相当于给 AI 配了一个“全能记忆库”。有了这个记忆库,Agent 能更精准抓细节、理解需求,不管是日常交互还是工作落地,实用性直接拉满!
二、MetaInsight 带你快速解锁多模态记忆
MetaInsight 是腾讯云数据万象基于海量数据推出的多场景、跨模态智能检索服务,相较于官方“Gemini Embedding 模型嵌入索引 + 本地记忆检索”的方式,具有以下优势:
- 云上记忆管理超省心
MetaInsight 与腾讯云 COS 深度绑定,通过 metainsight-context-engine 插件,记忆文件会自动传入到 COS Bucket 中,这就像专属 iCloud,为每一只小龙虾打造独立、安全、可持久化的云端记忆空间,数据不丢失、记忆可沉淀。记忆传入后,MetaInsight 会自动根据记忆文件构建多模态数据集,创建向量索引,以供后续记忆检索使用。
同时,我们也支持“一虾多 Agent”模式,每个 Agent 拥有独立的 MetaInsight 数据集,各自只检索自己的记忆数据,互不干扰。
- 强大的多模态检索能力
针对龙虾用户复杂的记忆数据,MetaInsight 作为底层多模态记忆处理引擎,可实现非结构化数据的索引构建与毫秒级语义检索。MetaInsight 同时支持图片/文档等多种模态检索(当前图片支持 PNG、JPG、JPEG 等格式,文档支持 PDF、DOCX、PPTX、TXT、MD 等格式)。在用户与龙虾实时对话过程中,无论上传的是自然风景图像,还是长篇的产品说明文档,均能完成端到端的标准化处理。后续当你检索内容时,MetaInsight 都能理解你的语义,输出心仪的结果。
- 零门槛快速上手
官方的“Gemini embedding 模型嵌入索引 + 本地记忆检索”方式,需要具备一定的技术功底,才能完成模型部署、索引配置、本地环境调试等一系列操作,对非技术人员不友好,门槛高。
而 metainsight-context-engine 插件采用“开箱即用”的设计逻辑,无需你部署模型、无需手动配置索引参数,接入后,就能直接启用多模态记忆检索功能。无论是开发者,还是非技术从业者,都能快速上手,真正实现“零门槛解锁多模态记忆能力”。
三、实现逻辑
metainsight-context-engine 插件最核心解决的问题就是记忆云上存储 + 多模态检索,具体实现逻辑如下:
- 监听记忆变更并自动上云:对记忆文件(MEMORY.md、memory/xxx.md)进行监听,在发生变化时,将记忆文件与关联的图片、文档等自动上传至云端 COS 存储桶,并根据存储桶下路径自动创建 MetaInsight 多模态数据集。
- 获取多模态检索记忆:MetaInsight 会自动对数据集中的数据进行向量索引,并在用户发起新一轮提问时,对数据集中的内容进行多模态检索,返回相关记忆片段。
- Prompt 拼接:当用户发起新一轮提问时,插件会按照 OpenClaw 的 Prompt 标准请求规则,对请求内容(包含记忆片段)进行拼接,并将完整的 Prompt 传递给大模型。

四、快速安装教程
1、前置准备:
前往腾讯云访问管理控制台,创建密钥(需要开通对象存储 COS、数据万象 CI 权限)。
2、一键安装
打开 OpenClaw,发送消息:
1.帮我执行以下命令安装插件:
openclaw plugins install metainsight-context-engine
2.帮我配置该插件 metainsight-context-engine:
secretId: xxxsecretKey: xxxappId: xxx
Makefile
代码解读复制代码
3、也可以手动安装:
前往 cnb.cool/tencent/clo… 按照指引手动安装和配置插件。
4、效果体验:
安装完成后,直接对话即可:“我上传过什么图吗”,Agent 就能记起你的图片以及图片详细内容。
