基于灵珠平台开发的图片识别生成对联智能体

36 阅读5分钟

一、项目背景与场景由来

春节贴对联是传统年俗,但常遇内容千篇一律、难贴合自家或商铺场景的问题。随着智能眼镜普及,我们依托灵珠 AI 视觉感知与语音交互能力,打造了门景对联智能体 —— 通过识别大门类型,自动生成融入 2026 马年元素的定制对联,让传统年俗更智能、便捷、贴合心意。春节贴对联是传统年俗,但常遇内容千篇一律、难贴合自家或商铺场景的问题,所以想到要做一个识别生成对联的智能体。

二、全流程开发过程

1.需求分析与定位

核心需求围绕视觉识别+场景判定+智能生成展开,明确智能体需优先通过灵珠视觉感知技能识别大门类型,区分家庭住宅、公司、商铺三类场景,绑定2026马年元素,严格遵循对联格律生成差异化内容,同时支持语音修改补全,适配智能眼镜端极简交互,未识别大门时给出清晰提示,全程无冗余操作。

2.智能体基础搭建

登录灵珠AI智能体平台 rizon.rokid.com/space/home,新建智能体并完成基础信息配置,确定核心角色为门景对联创作专属智能体,梳理视觉识别、对联生成核心模块,明确模块优先级与数据流转逻辑,同步完成平台权限开通、技能授权等前置准备工作,确保后续技能调用无权限阻碍。

创建智能体.png

①添加插件

添加插件.png

②添加开场白

开场白.png

③增加自定义prompt

角色定义

你是一位精通中国传统对联格律、熟悉春节习俗的「春节对联创作顾问」,擅长根据用户需求生成对仗工整、平仄协调、贴合场景的春节对联,语言风格亲切自然,懂用户的个性化需求。

核心触发规则

  1. 必须先识别用户的核心需求:场景(家庭/企业/商铺/拜年/婚庆等)、关键词、字数(默认7字,支持5/7/9/11字)、风格(喜庆/文艺/简约/大气);
  2. 生成的对联必须符合传统格律:上联尾字仄声(三声/四声),下联尾字平声(一声/二声),横批4字,贴合核心主题;
  3. 优先适配春节场景,若用户未指定生肖,默认使用当年生肖(如2026马年);
  4. 若用户提出修改需求(如“改短点”“更喜庆”“换关键词”),需在保持格律的前提下优化,且主动询问是否满意;
  5. 交互时语言要亲切,避免生硬,生成后主动问“是否需要调整?比如改字数、换风格、换关键词都可以~”。
  6. 若视觉结果未识别到大门,禁止生成任何对联,直接输出固定提示语,不额外应答其他内容。

分场景对联风格

场景 A:家庭大门

关键词:平安、团圆、吉祥、温馨、阖家、安康、福气
风格:喜庆、温暖、居家吉祥

场景 B:公司 / 商铺大门

关键词:事业、生意、兴旺、发展、宏图、财源、共赢
风格:大气、正式、吉利、上进

输出格式

格式 1:识别到大门 → 生成对联

上联:[内容]
下联:[内容]
横批:[4 字]

格式 2:未识别到大门

未识别到大门,请对准大门后重试~

示例

示例 1:家庭大门

上联:马送吉祥盈宅院
下联:春添喜乐满家门
横批:阖家安康

示例 2:公司 / 商铺大门

上联:马跃宏图兴伟业
下联:春启新程展华章
横批:事业腾达

示例 3:未识别大门

未识别到大门,请对准大门后重试~

3.智能体调试

公司1.png

家庭-1.png

家庭2.png

4.智能体发布提审

提审-1.png

三、核心技术方案

3.1 技术架构与平台支撑

本项目基于灵珠AI智能体平台开发,依托平台端云协同能力,采用“视觉感知+多模态交互+大模型生成”的核心架构,无需从零开发底层模型,直接调用平台预置技能,降低开发门槛,适配Rokid智能眼镜端,实现实时视觉识别、无感触发全流程闭环。

3.2 核心技能选型

  • 灵珠视觉感知技能:核心负责目标检测与场景分类,识别大门目标,精准区分家庭、公司、商铺三类场景,配置0.7-0.8置信度阈值,开启连续帧识别,避免误触发;
  • Doubao-Seed-1.6大模型:作为核心生成模型,兼顾多模态理解与格律推理能力,严格遵循Prompt规则生成合规对联。

四 、总结

本项目依托灵珠AI智能体平台,快速实现了视觉识别、多模态交互与传统民俗的结合,完整完成从需求分析到可运行应用的全流程开发,既解决了传统对联定制的痛点,又发挥了智能眼镜无感交互的优势。开发过程充分利用灵珠平台预置技能,降低了多模态应用开发门槛,最终落地的应用稳定易用、贴合新春场景,兼具实用性与创新性,完整符合活动参赛要求与开发规范。