大家好,我是Steven,一名独立开发者。今天来为大家分享一下我在 Spatial Joy 2025 比赛中参赛的智能体 Smart Finder(现已更名为《智能找物助手》)的开发心路历程。
应用演示:一句话找回遗忘角落
在深入技术细节前,大家可以先通过下面的演示看看 Smart Finder 是如何工作的:
什么是智能体?
智能体也叫 Agent。现在这个词在 2025 年被行业里炒得很热,但抛开那些高大上的学术概念,在我看来,可以把它简单的比作是“长了手脚和眼睛的程序”。
以前我们写代码,输入靠键盘,输出靠屏幕,甚至早期的 AI 也只是对话框里的聊天机器人。但有了 Agent,我们就可以来做一些实际的事情了,比如让它帮你查找最近的新闻,发送 Email,亦或者是对数据库的 CRUD 等等。
如果是在 AI 眼镜这种载体上,它的输入就变成了你眼前看到的真实画面,和你随口说出的一句话。在 Smart Finder 这个项目里,Agent 扮演的是一个帮你记东西的“赛博管家”。你不用再打开某个 App 去苦哈哈地打字记录,只要看着那个物品,说一句“帮我记一下”,它就会自己调用视觉大模型去识别,然后存入数据库中。
灵珠平台可以干什么?
我之前也做过一阵子的 AI 应用层开发,主要是做高代码开发,使用 LlamaIndex 或者 AutoGen 做一些智能体的编排和知识库应用。灵珠平台这种类似扣子的可视化智能体编排平台,我还是第一次深入接触。但用下来后我感觉,灵珠平台是一个真正具有实操价值的平台——相比于只能靠文字输入的传统平台,灵珠是少有的直接接入硬件底层能力的编排平台。
做过端侧硬件开发的兄弟们肯定都知道,最头疼的就是去抠各种底层的 SDK 和驱动接口。但这次基于 Rokid 灵珠 AI 平台开发,确实帮我省了极大的麻烦。
它对我最大的价值就是“搭积木”。底层能力被封装得很透彻,直接提供了 Rokid Glasses 的端侧插件。我只需要在可视化面板上拖拽一个节点,就能控制眼镜去拍照、导航或者退出程序。另外,它原生集成了工作流编排、知识库记忆,甚至连支付宝的 MCP 都已经接好了(这也让我的应用能在找不到东西时,通过调用 MCP 直接帮用户比价买个新的)。这意味着我一个人就能搞定全栈开发,把精力全花在打磨“找东西”的核心体验上,而不是天天面对着满屏的 API 报错发愁。
什么样算是一个好的 idea?
我一直觉得,AI 眼镜上的好 idea,绝对不能是把手机 App 强行照搬过来。一个好的 idea 必须能回答一个灵魂拷问:为什么这事儿非得戴着眼镜干?
就像 Smart Finder,切入点极其聚焦,就是“找东西”。春节期间大家走亲访友肯定深有体会:随手放的车钥匙、茶几上的红包,转头就忘了在哪。如果用手机记,你得掏出手机、打开相册、甚至敲字备注,没人能坚持下来。
但戴着眼镜,这就是一句话的事,彻底解放双手(Hands-free)。好的 idea 就是要切中那种“用手机做嫌麻烦,但生活中又确实痛”的刚需小场景。希望这也能对想创业的朋友有所启发,一个好 idea 有时候确实是一个 Key Result,但创业绝不仅仅只有 idea。
技术方案与系统架构(重点)
为了维持用户体验上的“极简”(一句话记录,一句话查找),我在后端架构和工作流上花了不少心思。所谓的简单,不过是开发者把最脏最累的逻辑判断,全交给了代码和工作流去死磕。
以下是 Smart Finder 的核心技术架构图:
整个系统以 SmartFinder_MainFlow 作为调度中枢,下面挂载了 12 个核心工作流。系统主要分为“记录(Write)”和“检索(Read)”两条主链路。
1. 多模态识别与信息结构化(记录链路)
当用户触发记录指令时,难点在于如何从复杂的图像中提取有价值的信息。
我使用多模态视觉模型(doubao-seed-vision)对眼镜端传回的照片进行解析,识别主体物品及周围的参照物,并计算置信度。随后,经过 sql 节点保存至数据库。
为了保证存入数据库的数据规范,我在提示词(Prompt)和结构化输出上做了严格限制,类似如下的 JSON Schema 结构:
{
"items": [
{
"name": "物品名称,根据图像识别结果确定",
"aliases": "该物品可能的别名或常用称呼,如无法确认则为空字符串",
"category": "物品的类型,例如:钥匙、文具、电子产品、生活用品等,无法判断则为空字符串",
"room": "结合 location_desc 与图像线索,推断房间名称,如客厅、卧室、厨房。无法判断则为空字符串",
"container": "物品所在的容器,如抽屉、盒子、柜子。无法判断则为空字符串",
"location_desc": "使用用户提供的 location_desc,可融合图像细节进行补充",
"photo_desc": "根据图像内容描述该物品在照片中的外观、颜色、状态、相对位置",
"tags": "可选标签,用半角逗号分割,如 '钥匙,金属,日常携带'。无法判断可为空字符串",
"last_seen_at": "使用当前时间",
"confidence": 0.85,
"location": "使用当前位置"
}
],
"total_count": 1
}
2. 边缘情况处理与上下文管理(检索链路)
在查找时,用户的提问往往是模糊的(比如“我的钥匙呢?”而不是“我的黑色奥迪车钥匙在哪”)。
工作流中专门设计了模糊查询和上下文清理逻辑。通过大语言模型对用户的自然语言进行意图重写,再将其转化为对数据库的查询条件。同时,结合支付宝的 MCP 插件,当数据库检索不到或物品确认已损坏时,系统会自动触发后备工作流,在电商平台进行同款比价。
未来畅想
目前的 Smart Finder 虽然好用,但依然偏向“你问它答”的被动触发式交互。
但在未来,配合 Rokid Glasses 的“慧眼”(Live AI)以及越来越成熟的 Omni-Realtime 全模态实时模型技术,我期待灵珠平台能打通实时视频流的无缝分析能力。
到那时候,Smart Finder 就真正变成了一个 Always-on 的视觉伴侣。你不需要再刻意对它下指令,只要戴着眼镜在屋里走动,它就像行车记录仪一样,在后台无感地帮你把所有的物品建立起空间三维坐标。真正做到“走过即记录,所见即记忆”,让 AI 眼镜成为人类大脑最强大的数字孪生外挂。
以上就是我从几个不同的维度分享了开发 Smart Finder 的心路历程,希望对大家有所帮助。欢迎大家在 Glasses 的智能体商店体验《智能找物助手》。
不知道大家在春节期间有没有遇到什么可以用 AI 解决的痛点?欢迎在评论区一起交流探讨!