Smart Finder智能体开发心路历程大家好，我是steven，一名独立开发者。今天来为大家分享一下我在 Spati

大家好，我是Steven，一名独立开发者。今天来为大家分享一下我在 Spatial Joy 2025 比赛中参赛的智能体 Smart Finder（现已更名为《智能找物助手》）的开发心路历程。

应用演示：一句话找回遗忘角落

在深入技术细节前，大家可以先通过下面的演示看看 Smart Finder 是如何工作的：

image (6).png

什么是智能体？

智能体也叫 Agent。现在这个词在 2025 年被行业里炒得很热，但抛开那些高大上的学术概念，在我看来，可以把它简单的比作是“长了手脚和眼睛的程序”。

以前我们写代码，输入靠键盘，输出靠屏幕，甚至早期的 AI 也只是对话框里的聊天机器人。但有了 Agent，我们就可以来做一些实际的事情了，比如让它帮你查找最近的新闻，发送 Email，亦或者是对数据库的 CRUD 等等。

如果是在 AI 眼镜这种载体上，它的输入就变成了你眼前看到的真实画面，和你随口说出的一句话。在 Smart Finder 这个项目里，Agent 扮演的是一个帮你记东西的“赛博管家”。你不用再打开某个 App 去苦哈哈地打字记录，只要看着那个物品，说一句“帮我记一下”，它就会自己调用视觉大模型去识别，然后存入数据库中。

灵珠平台可以干什么？

我之前也做过一阵子的 AI 应用层开发，主要是做高代码开发，使用 LlamaIndex 或者 AutoGen 做一些智能体的编排和知识库应用。灵珠平台这种类似扣子的可视化智能体编排平台，我还是第一次深入接触。但用下来后我感觉，灵珠平台是一个真正具有实操价值的平台——相比于只能靠文字输入的传统平台，灵珠是少有的直接接入硬件底层能力的编排平台。

做过端侧硬件开发的兄弟们肯定都知道，最头疼的就是去抠各种底层的 SDK 和驱动接口。但这次基于 Rokid 灵珠 AI 平台开发，确实帮我省了极大的麻烦。

image (7).png

它对我最大的价值就是“搭积木”。底层能力被封装得很透彻，直接提供了 Rokid Glasses 的端侧插件。我只需要在可视化面板上拖拽一个节点，就能控制眼镜去拍照、导航或者退出程序。另外，它原生集成了工作流编排、知识库记忆，甚至连支付宝的 MCP 都已经接好了（这也让我的应用能在找不到东西时，通过调用 MCP 直接帮用户比价买个新的）。这意味着我一个人就能搞定全栈开发，把精力全花在打磨“找东西”的核心体验上，而不是天天面对着满屏的 API 报错发愁。

什么样算是一个好的 idea？

我一直觉得，AI 眼镜上的好 idea，绝对不能是把手机 App 强行照搬过来。一个好的 idea 必须能回答一个灵魂拷问：为什么这事儿非得戴着眼镜干？

就像 Smart Finder，切入点极其聚焦，就是“找东西”。春节期间大家走亲访友肯定深有体会：随手放的车钥匙、茶几上的红包，转头就忘了在哪。如果用手机记，你得掏出手机、打开相册、甚至敲字备注，没人能坚持下来。

但戴着眼镜，这就是一句话的事，彻底解放双手（Hands-free）。好的 idea 就是要切中那种“用手机做嫌麻烦，但生活中又确实痛”的刚需小场景。希望这也能对想创业的朋友有所启发，一个好 idea 有时候确实是一个 Key Result，但创业绝不仅仅只有 idea。

技术方案与系统架构（重点）

为了维持用户体验上的“极简”（一句话记录，一句话查找），我在后端架构和工作流上花了不少心思。所谓的简单，不过是开发者把最脏最累的逻辑判断，全交给了代码和工作流去死磕。

以下是 Smart Finder 的核心技术架构图：

image (8).png

整个系统以 SmartFinder_MainFlow 作为调度中枢，下面挂载了 12 个核心工作流。系统主要分为“记录（Write）”和“检索（Read）”两条主链路。

1. 多模态识别与信息结构化（记录链路）

当用户触发记录指令时，难点在于如何从复杂的图像中提取有价值的信息。

我使用多模态视觉模型（doubao-seed-vision）对眼镜端传回的照片进行解析，识别主体物品及周围的参照物，并计算置信度。随后，经过 sql 节点保存至数据库。

image (9).png

为了保证存入数据库的数据规范，我在提示词（Prompt）和结构化输出上做了严格限制，类似如下的 JSON Schema 结构：

{
  "items": [
    {
      "name": "物品名称，根据图像识别结果确定",
      "aliases": "该物品可能的别名或常用称呼，如无法确认则为空字符串",
      "category": "物品的类型，例如：钥匙、文具、电子产品、生活用品等，无法判断则为空字符串",
      "room": "结合 location_desc 与图像线索，推断房间名称，如客厅、卧室、厨房。无法判断则为空字符串",
      "container": "物品所在的容器，如抽屉、盒子、柜子。无法判断则为空字符串",
      "location_desc": "使用用户提供的 location_desc，可融合图像细节进行补充",
      "photo_desc": "根据图像内容描述该物品在照片中的外观、颜色、状态、相对位置",
      "tags": "可选标签，用半角逗号分割，如 '钥匙,金属,日常携带'。无法判断可为空字符串",
      "last_seen_at": "使用当前时间",
      "confidence": 0.85,
      "location": "使用当前位置"
    }
  ],
  "total_count": 1
}

2. 边缘情况处理与上下文管理（检索链路）

在查找时，用户的提问往往是模糊的（比如“我的钥匙呢？”而不是“我的黑色奥迪车钥匙在哪”）。

image (10).png

工作流中专门设计了模糊查询和上下文清理逻辑。通过大语言模型对用户的自然语言进行意图重写，再将其转化为对数据库的查询条件。同时，结合支付宝的 MCP 插件，当数据库检索不到或物品确认已损坏时，系统会自动触发后备工作流，在电商平台进行同款比价。

未来畅想

目前的 Smart Finder 虽然好用，但依然偏向“你问它答”的被动触发式交互。

但在未来，配合 Rokid Glasses 的“慧眼”（Live AI）以及越来越成熟的 Omni-Realtime 全模态实时模型技术，我期待灵珠平台能打通实时视频流的无缝分析能力。

到那时候，Smart Finder 就真正变成了一个 Always-on 的视觉伴侣。你不需要再刻意对它下指令，只要戴着眼镜在屋里走动，它就像行车记录仪一样，在后台无感地帮你把所有的物品建立起空间三维坐标。真正做到“走过即记录，所见即记忆”，让 AI 眼镜成为人类大脑最强大的数字孪生外挂。

以上就是我从几个不同的维度分享了开发 Smart Finder 的心路历程，希望对大家有所帮助。欢迎大家在 Glasses 的智能体商店体验《智能找物助手》。

不知道大家在春节期间有没有遇到什么可以用 AI 解决的痛点？欢迎在评论区一起交流探讨！