一、产品介绍
1.1 产品名称与定位
- 产品名称:灵感笔记(InspirationNote)
- 一句话定位:一款基于多模态AI与多Agent协作的UGC内容创作助手,通过主动推送灵感、智能生成文案、个性化风格适配,帮助用户快速产出好物种草,旅行日记,美食种草等平台风格的种草笔记,解决内容创作者从灵感获取到文案产出的全链路痛点。
1.2目标用户画像
我们将目标用户分为三类,并详细描述其行为特征:
| 用户类型 | 典型场景 | 行为特征 | 核心需求 |
|---|---|---|---|
| 普通分享者 | 旅行、美食、日常生活的记录者 | 偶尔拍照分享,不擅长写作,希望快速产出吸引人的文案 | 降低写作门槛,一键生成 |
| 内容创作者 | 小红书博主、大众点评达人 | 高频更新,需要持续产出,追逐热点,同时运营多个平台 | 灵感持续供应,多风格适配 |
| 运营/商家 | 品牌账号运营、店铺推广 | 需要批量产出营销文案,注重转化率和平台调性 | 模板化生成,数据驱动优化 |
二、痛点分析与产品形态设计详解
2.1 用户痛点深度剖析
-
用户痛点深度剖析
-
痛点一:创作门槛高
- 表现:面对美景美食照片,不知如何用文字表达,写出来的文案平淡无吸引力,互动数据差。
- 用户故事:小A去三亚旅游拍了9张照片,想发小红书,但憋了半小时只写出“今天去了三亚,好美”,最终放弃发布。
- 影响:降低分享欲望,流失潜在UGC内容。
- 频次:每次分享都会遇到。
- 强烈程度:高(阻碍分享欲望)。
-
痛点二:灵感枯竭
- 表现:持续产出导致思维疲劳,每天想选题耗费大量时间;热点追踪不及时,错过流量高峰。
- 用户故事:小B每天要更新3篇笔记,经常到晚上还不知道写什么,只能翻找旧素材,导致内容同质化,粉丝增长停滞。
- 影响:影响更新频率,导致账号活跃度下降。
- 频次:每天。
- 强烈程度:极高(影响更新频率)。
-
痛点三:多平台适配困难
- 表现:同一内容在不同平台需要不同风格:小红书需要文艺走心,大众点评需要实用详细,抖音需要短平快。手动调整费时费力,且容易出错。
- 用户故事:小C为一家餐厅做推广,需要在小红书发种草笔记,在大众点评发优质评价,在抖音发短视频文案。他需要为每个平台单独写文案,重复劳动。
- 影响:效率低下,难以规模化。
- 频次:每次跨平台发布。
- 强烈程度:中高。
-
痛点四:缺乏个性化
- 表现:AI生成内容千篇一律,无法体现个人语气和偏好;用户需要反复修改才能符合自己的风格。
- 用户故事:小D试用了几款AI写作工具,发现生成的文案都像机器人写的,没有她自己的“人设”,每次都要大改。
- 影响:影响满意度和使用意愿。
- 频次:每次使用.
- 强烈程度:中(影响满意度)。
-
2.2 核心功能
针对上述痛点,我们设计了六大核心功能,每个功能都包含子功能、用户价值和技术实现要点。
功能一、每日灵感推送
-
功能描述:每天上午9点,系统自动推送3-5条“今日发文灵感”到用户手机。每条灵感包括:热点话题标题、配图建议、推荐话题标签、参考热度指数。
-
子功能:
- 灵感列表:可点击查看详情,支持收藏、忽略。
- 灵感详情页:展示完整的选题分析,包括热点趋势、相关笔记、创作建议。
- 一键使用:点击“使用该灵感”直接跳转到拍照/选图页,并预填部分标签。
-
用户价值:无需主动搜索,被动接收选题,保持创作灵感源源不断。
-
技术实现:后台OpenClaw Agent定时抓取指定网站(小红书热榜、微博热搜、大众点评热门、抖音热点),经大模型提炼生成结构化灵感数据,通过飞书/钉钉机器人推送至用户手机。App端通过推送唤起或首页拉取展示。
-
对应痛点:解决灵感枯竭。
功能二、拍照/选图生成笔记
-
功能描述:用户拍摄或从相册选择1-9张图片,系统自动识别图片内容(场景、物体、风格、情绪),生成一篇完整的种草笔记,包含标题、正文、话题标签。
-
子功能:
- 多图支持:可选择多张图,AI自动生成图文混排的笔记。
- 图片智能裁剪/优化:提供基础滤镜、裁剪建议。
- 生成选项:可设置生成笔记长度(短/中/长)。
-
用户价值:3秒出文案,大幅降低写作难度。
-
技术实现:调用多模态API(如GPT-4V)进行图像理解与文案生成。支持传入多张图,API返回结构化文案。前端通过expo-image-picker获取图片,转换为base64或URL后调用。
-
对应痛点:解决创作门槛。
功能三、多Agent工作流可视化
-
功能描述:在文案生成过程中,界面实时展示四个步骤的状态:意图识别 → 素材收集 → 文案生成 → 风格优化。每个步骤完成后显示对应信息(如“识别到美食场景”、“参考了3篇优质笔记”)。
-
子功能:
- 步骤状态指示:待处理、进行中、已完成、失败(可重试)。
- 详细信息展开:点击每个步骤可查看该步骤的详细输出(如意图识别结果、检索到的笔记片段)。
-
用户价值:让用户感知到AI的思考过程,增加可信度和趣味性,同时便于调试和优化。
-
技术实现:前端使用状态机管理工作流状态,通过setTimeout模拟步骤延迟,实际生成时调用真实API并更新状态。后续可对接真实Agent调度系统。
-
对应痛点:提升用户体验,展示技术深度。
功能四、场景与风格切换
-
功能描述:生成结果页提供下拉菜单,允许用户手动切换场景(美食/旅行/穿搭/美妆/数码等)和风格(文艺/幽默/专业/简洁/治愈等)。切换后立即重新生成对应风格的文案。
-
子功能:
- 场景识别修正:如果AI识别错误,用户可以手动纠正。
- 风格强度调节:可滑动调节风格强度(如幽默程度0-100%)。
- 偏好记忆:系统会记住用户最近选择的场景和风格组合,下次打开自动应用。
-
用户价值:一键适配不同平台,保持个人语气一致性,满足个性化需求。
-
技术实现:使用Zustand管理用户偏好,通过AsyncStorage持久化。切换时重新调用生成API,传入scene和style参数,由后端(或prompt工程)控制输出风格。
-
对应痛点:解决多平台适配困难和缺乏个性化。
功能五、知识库参考(模拟RAG)
-
功能描述:在素材收集步骤,系统会从本地知识库中检索与当前场景最匹配的优质笔记片段,并将其作为参考融入prompt。生成结果下方会显示“参考了以下笔记”的占位信息,点击可查看具体片段。
-
子功能:
- 知识库管理:可手动添加/删除参考样本(未来开放)。
- 参考权重:可设置参考强度(弱/中/强),影响生成内容与参考的相似度。
-
用户价值:提升生成内容的质量和平台调性贴合度,让用户感觉AI更“懂”平台。
-
技术实现:预先采集小红书/大众点评真实优质笔记(脱敏),按场景分类存储为JSON文件。生成前,根据场景从知识库随机选取2-3条,将其内容拼接到prompt中。前端可展示参考来源。
-
对应痛点:提升生成质量,为RAG技术做铺垫。
功能六、保存与分享
-
功能描述:用户可将生成的笔记保存到本地(AsyncStorage),或复制全文到剪贴板,方便粘贴到小红书、微信等平台发布。
-
子功能:
- 历史记录:首页增加“历史笔记”入口,展示用户保存过的笔记,支持再次编辑、删除。
- 分享到平台:直接唤起小红书/微信分享(需配置URL Scheme)。
-
用户价值:方便管理创作成果,快速发布。
-
技术实现:使用AsyncStorage存储历史记录,支持增删改查。复制功能使用Clipboard API。
-
对应痛点:提升实用性。
2.3用户使用流程图
2.4产品形态
| 组成部分 | 技术实现 | 核心职责 |
|---|---|---|
| 前端App | React Native + Expo | 提供用户界面,处理拍照/选图、工作流展示、结果编辑、本地存储等 |
| 后台Agent | OpenClaw 平台 | 执行定时热点抓取、灵感生成、推送通知等自动化任务 |
| 外部服务 | 多模态API(如GPT-4V)、大模型API(如OpenAI)、热点网站 | 提供AI能力和数据源 |
2.5产品特色与差异化优势
核心化差异
| 维度 | 灵感笔记 | 竞品A(通用AI写作) | 竞品B(固定模板工具) |
|---|---|---|---|
| 灵感来源 | 主动推送热点灵感 | 用户主动搜索或输入 | 无 |
| 生成方式 | 多Agent协作(意图识别+素材检索+生成+优化) | 单次API调用 | 固定模板填空 |
| 个性化 | 记忆用户偏好,风格可调 | 无记忆,需手动调整 | 固定 |
| 多平台适配 | 一键切换场景/风格,适配不同平台 | 需手动改prompt | 需手动换模板 |
| 透明度 | 工作流可视化,展示思考过程 | 黑盒 | 黑盒 |
| 扩展性 | 预留RAG和多Agent接口,可升级 | 封闭 | 封闭 |
用户体验亮点
- 主动服务:无需用户发起,每天精细化推送灵感,成为用户的创作伙伴。
- 透明化思考:让用户看到AI的“思考过程”,增强信任感和趣味性。
- 个性化记忆:随着使用次数增加,AI越来越懂用户。
- 轻量快速:3秒生成,操作简单,符合移动端使用习惯。
三、AI技术选型详解
3.1 选型背景与目标
在灵感笔记项目中,我们需要一套既能快速实现MVP,又能支撑未来多Agent协作、RAG检索、自动化任务等复杂需求的AI基础设施。核心目标包括:
- 定时任务:每日抓取热点、生成灵感并推送。
- 多步骤协作:抓取→提炼→生成→推送,涉及多个环节。
- 外部工具调用:访问网站、调用大模型API、发送推送。
- 可扩展性:未来可增加更多Agent(如素材Agent、审核Agent),支持自定义Skill。
- 开发效率:12小时极限开发,需要开箱即用的能力。
3.2 可选方案对比
我们评估了以下几种主流的AI应用开发方案
| 方案 | 核心定位 | 优势 | 劣势 | 适用场景 |
|---|---|---|---|---|
| OpenClaw | 24小时在线的AI员工平台,支持多Agent协作、Skill生态、MCP协议 | - 内置定时任务调度 - 17000+现成Skill - MCP协议连接外部工具 - 无需运维服务器 - 支持自定义Skill开发 | - 需学习Skill规范 - 依赖平台生态 | 自动化后台任务、多Agent协作、需要长期运行的服务 |
| LangChain / LlamaIndex | AI应用开发框架,提供链式调用、Agent、RAG等组件 | - 灵活可定制 - 强大的RAG支持 - 社区活跃 | - 需自行部署和运维 - 学习曲线较陡 - 无内置定时任务 | 需要深度定制AI流程的项目,有后端开发能力 |
| 自建Python脚本 + Cron | 传统脚本方式 | - 完全可控 - 技术简单 | - 需自己处理错误重试、日志、监控 - 无法7x24小时稳定运行 - 扩展性差 | 极简的一次性任务 |
| 云函数(Serverless) | 函数即服务 | - 无需运维 - 按量付费 | - 冷启动延迟 - 不适合长时间任务 - 需自行组合函数实现流程 | 轻量、事件驱动的任务 |
| Claude Code | 命令行AI编程助手 | - 实时代码生成 - 调试辅助 | - 无法后台运行 - 无定时任务能力 | 辅助开发阶段,不适合生产环境 |
| Vibe Coding | 开发哲学(随性编码) | - 快速原型 | - 代码质量不可控 - 无法维护 |
决策结论:
- OpenClaw作为主力:负责后台自动化流程(热点抓取→灵感生成→推送),同时可在开发过程中调用Claude Code辅助写代码。
- Claude Code作为辅助:在需要快速生成特定组件或调试时使用。
- Vibe Coding不采用:本项目需要结构化代码以便面试展示和维护,不适合随性编码。
3.3 为什么选择OpenClaw作为核心开发平台?
3.3.1 核心需求匹配度
- 定时任务:OpenClaw内置cron触发器,可直接配置每天9点执行Skill。
- 多步骤协作:支持多个Skill串联(如抓取Skill完成后触发生成Skill),通过事件或共享数据实现。
- 外部工具调用:MCP协议让Agent能无缝接入HTTP API、数据库、本地文件等。
- 可扩展性:Skill机制允许我们自由开发新功能,未来可添加更多Agent。
- 开发效率:安装现成Skill即可快速获得爬虫、搜索等能力,自定义Skill也有标准模板。
3.3.2与其他方案的对比总结
- 优于自建脚本:无需处理进程守护、日志、重试,平台自动管理。
- 优于LangChain:LangChain适合构建复杂流程,但需要自己部署和运维;OpenClaw是托管平台,开箱即用。
- 优于Serverless:Serverless适合短任务,而OpenClaw的Agent可以长期运行,且有状态。
- 优于Claude Code:Claude Code是开发工具,不能作为后台服务。
3.4 整体技术架构图(Mermaid)
四、开发过程详述(阶段拆解与Prompt示例)
为了在短期快速跑通MVP,同时为后续多Agent协作、RAG等扩展预留接口,我们将开发过程分为七个阶段。每个阶段都有明确的目标、具体步骤、给OpenClaw的Prompt示例,以及扩展预留说明。
阶段0:准备工作(30分钟)
目标:搭建基础开发环境,确保所有工具就绪。
| 任务 | 操作 | 给OpenClaw的Prompt示例 |
|---|---|---|
| 安装Node.js和npm | 检查版本 node -v | “请帮我确认当前Node.js版本是否≥16,如果低于16,指导我升级。” |
| 安装Expo CLI | npm install -g expo-cli | “帮我全局安装Expo CLI。” |
| 注册OpenAI API | 访问 platform.openai.com 获取密钥 | “请提供申请OpenAI API密钥的步骤,并说明如何安全存储密钥。” |
| 安装OpenClaw | 参考OpenClaw官方文档安装 | “请指导我安装OpenClaw,并验证安装成功。” |
| 创建飞书/钉钉机器人 | 在对应App中创建群聊并添加机器人 | “请告诉我如何创建飞书机器人并获取Webhook URL。” |
扩展预留说明:
- 将API密钥、Webhook URL等敏感信息统一存入
.env文件,便于后续切换环境。 - 所有配置信息集中管理(如
src/config),后续扩展只需修改配置文件。
阶段1:项目初始化与环境配置(1小时)
目标:创建Expo项目,安装依赖,建立基础目录结构。
详细步骤:
- 使用Expo CLI创建项目“InspirationNote”。
- 安装导航、图片选择、网络请求、状态管理等依赖。
- 创建目录结构:
src/screens、src/components、src/utils、src/config、src/store。 - 配置App.js,设置底部导航包含“首页”和“拍照”两个Tab。
给OpenClaw的Prompt示例:
请帮我完成React Native项目的初始化:
1. 确认当前目录为空,使用expo-cli创建项目“InspirationNote”,选择“blank”模板。
2. 进入项目目录,安装以下依赖:@react-navigation/native @react-navigation/bottom-tabs react-native-screens react-native-safe-area-context expo-image-picker axios zustand @react-native-async-storage/async-storage。
3. 创建以下文件夹结构:src/screens, src/components, src/utils, src/config, src/store。
4. 修改App.js,实现底部导航,包含“首页”和“拍照”两个Tab,首页对应HomeScreen,拍照对应CameraScreen(这两个组件暂时创建空白文件)。
5. 返回需要执行的命令序列和所有需要修改的代码内容。
扩展预留说明:
- 目录结构清晰,后续新增Agent相关模块(如
src/agents)可直接添加。 - 使用Zustand管理状态,便于后续扩展全局状态(如用户偏好、工作流状态)。
阶段2:基础UI框架搭建(2小时)
目标:实现Home、Camera、Result三个页面的静态UI。
详细步骤:
-
HomeScreen.js:
- 顶部欢迎语。
- 卡片区域展示“今日灵感”(先用静态数据,后续从本地文件读取)。
- 底部两个按钮:查看历史(预留)、开始创作(跳转Camera)。
-
CameraScreen.js:
- 两个按钮:拍照、从相册选择(使用expo-image-picker)。
- 选中图片后,跳转到ResultScreen并传递图片URI。
-
ResultScreen.js:
- 展示图片。
- 中间区域预留工作流步骤条(后续实现)。
- 下方预留结果展示区(标题、正文、标签)。
- 底部按钮:重新生成、保存、复制。
给OpenClaw的Prompt示例:
请帮我生成三个页面的UI代码:
1. HomeScreen.js:显示欢迎语“早上好,准备创作吧”,下方一个卡片区域展示今日灵感(先用静态数据:3条灵感,每条包含标题和摘要)。底部两个按钮:“历史记录”(暂时无功能)和“开始创作”(跳转到CameraScreen)。
2. CameraScreen.js:使用expo-image-picker实现两个按钮:“拍照”和“从相册选择”。选择图片后,用navigation.navigate('Result', { imageUri: uri })跳转。
3. ResultScreen.js:接收图片URI并展示图片。图片下方预留四个步骤的状态显示区域(用View占位)。再下方预留三个文本区域(标题、正文、标签),用占位文字填充。底部三个按钮:“重新生成”、“保存”、“复制全文”,暂时无功能。
所有组件使用函数组件和StyleSheet,样式美观、移动端适配。
扩展预留说明:
- 工作流步骤条区域设计为独立组件
WorkflowSteps,后续可轻松替换为真实状态管理。 - 结果展示区预留了足够的空间,未来可增加富文本编辑功能。
- 保存和复制功能使用AsyncStorage和Clipboard API,后续扩展历史记录页。
阶段3:AI能力集成(mock→真实)(2小时)
目标:先实现mock数据跑通生成流程,再接入真实多模态API。
详细步骤:
-
创建
src/utils/mockAI.js,实现mockGenerateFromImage函数,接受scene、style参数返回不同风格的mock文案。 -
在ResultScreen中调用mock函数,将结果展示到对应区域,并实现“重新生成”功能。
-
接入真实多模态API(如GPT-4V):
- 安装
expo-constants和dotenv,在.env中存储API密钥。 - 创建
src/utils/realAI.js,实现generateFromImage函数,调用API并解析返回。 - 实现图片转base64函数。
- 安装
-
通过环境变量控制使用mock还是真实API(方便切换)。
给OpenClaw的Prompt示例:
请帮我实现AI文案生成功能,分两步:
第一步:mock版本
1. 在src/utils/mockAI.js中导出函数mockGenerateFromImage(imageUri, scene='travel', style='文艺'),返回Promise,延迟1.5秒后返回如下结构:
{
title: "这里是小标题",
content: "这里是详细的种草文案,包含表情符号和换行。",
tags: ["#tag1", "#tag2", "#tag3"]
}
要求根据scene和style参数返回不同风格内容(例如美食场景偏向食物描述,旅行偏向风景描述)。
2. 修改ResultScreen.js,在页面加载时调用mockGenerateFromImage,并将结果展示在对应区域。点击“重新生成”再次调用。
第二步:真实API版本
1. 指导我安装expo-constants和react-native-dotenv,配置.env文件存储OPENAI_API_KEY。
2. 提供调用OpenAI GPT-4V的代码示例,函数名为generateFromImage(imageUri, scene, style),返回与mock一致的结构。注意处理图片转base64。
3. 实现一个开关,通过环境变量USE_MOCK控制使用mock还是真实API。
扩展预留说明:
- AI调用模块抽象为
AIService,未来可轻松替换为其他模型(如国产API)或增加后处理逻辑。 - 在调用真实API时,prompt中预留了场景和风格参数,为后续个性化生成做准备。
- 错误处理和重试机制已预留,后续可增强。
阶段4:工作流可视化与模拟Agent(1.5小时)
目标:在结果页增加工作流步骤展示,模拟Agent协作过程。
详细步骤:
- 创建
WorkflowSteps组件,接收currentStep属性,显示四个步骤的状态(待处理、进行中、已完成)。 - 在ResultScreen中,使用状态管理当前步骤,在调用生成函数时依次更新步骤(setTimeout模拟延迟)。
- 在“素材收集”步骤,模拟从本地知识库检索笔记(
src/config/knowledgeBase.js),并在界面上显示“参考了X篇优质笔记”。 - 步骤完成后显示最终结果。
给OpenClaw的Prompt示例:
请帮我实现工作流可视化功能:
1. 创建组件src/components/WorkflowSteps.js,接收一个prop: currentStep (0-4),0表示未开始,1-4分别对应四个步骤。显示四个步骤标签:意图识别、素材收集、文案生成、风格优化。当前步骤显示为进行中(蓝色),已完成步骤显示对勾,未开始显示灰色。
2. 在ResultScreen.js中,引入WorkflowSteps组件,并添加状态currentStep。在useEffect中模拟工作流:
- 开始时setCurrentStep(1)(意图识别)
- 500ms后setCurrentStep(2)(素材收集),同时从本地知识库(src/config/knowledgeBase.js)随机检索2条笔记,并在控制台打印“参考了xx笔记”
- 500ms后setCurrentStep(3)(文案生成),调用mockAI生成文案
- 500ms后setCurrentStep(4)(风格优化)
- 500ms后setCurrentStep(0)(完成),展示结果
3. 知识库文件src/config/knowledgeBase.js导出按场景分类的文案数组(例如travel: [...], food: [...]),供素材收集步骤使用。
扩展预留说明:
- 工作流步骤状态管理抽象为
useWorkflowhook,未来可对接真实Agent调度系统。 - 知识库文件格式标准化,未来可升级为向量数据库实现RAG。
- 步骤之间通过事件解耦,每个步骤可以独立替换为真实Agent调用。
阶段5:场景/风格切换与记忆功能(1.5小时)
目标:允许用户手动切换场景和风格,并记住偏好。
详细步骤:
- 使用Zustand创建
useStore,管理scene和style状态,并持久化到AsyncStorage。 - 在ResultScreen顶部增加两个下拉菜单:场景选择(美食、旅行、穿搭)、风格选择(文艺、幽默、专业)。
- 切换时更新store,并重新调用生成函数。
- 在首页显示当前偏好(可选)。
给OpenClaw的Prompt示例:
请帮我实现场景/风格切换和记忆功能:
1. 安装zustand和@react-native-async-storage/async-storage(已安装)。
2. 创建src/store/useStore.js,使用zustand的persist中间件,存储scene和style字段,默认scene='travel', style='文艺'。提供setScene和setStyle方法。
3. 在ResultScreen.js顶部添加两个Picker(或自定义下拉框):
- 场景选项:旅行、美食、穿搭
- 风格选项:文艺、幽默、专业
选中项绑定到store,切换时调用setScene/setStyle,并重新触发工作流生成。
4. 修改mockAI.js,使其根据传入的scene和style返回不同风格的文案(例如幽默风格添加更多表情和玩笑)。
扩展预留说明:
- store预留了更多字段(如
user_id、history),未来可扩展多用户和个性化推荐。 - 切换逻辑独立,未来可接入用户画像模型,自动推荐最适合的风格。
阶段6:OpenClaw Skill开发(后台灵感推送)(2小时)
目标:实现后台定时抓取热点、生成灵感并推送。
详细步骤:
-
开发
hot-crawlerSkill:- 创建Skill目录,编写
SKILL.md描述。 - 编写
scripts/fetch.py,使用requests和BeautifulSoup抓取配置的网站(如小红书热榜)。 - 配置
config.json指定抓取源和CSS选择器。 - 测试手动运行。
- 创建Skill目录,编写
-
开发
inspiration-generatorSkill:- 读取抓取结果文件,调用OpenAI API生成灵感(3-5条)。
- 通过飞书/钉钉机器人推送。
-
设置定时任务:每天9点执行抓取,完成后触发生成Skill。
给OpenClaw的Prompt示例:
请以OpenClaw专家身份,指导我开发两个自定义Skill:
Skill 1: hot-crawler
- 功能:抓取指定网站的热点标题和链接。
- 要求:支持通过config.json配置多个源(url和CSS选择器),输出保存到~/hotTopics.json,格式为[{source, title, link, summary}, ...]。
- 请提供Skill目录结构、SKILL.md模板、fetch.py脚本示例(使用Python),以及如何注册定时任务(cron: 0 9 * * *)。
Skill 2: inspiration-generator
- 功能:读取~/hotTopics.json,调用OpenAI API生成今日发文灵感(3-5条),每条包含标题、配图建议、话题标签。
- 推送:通过飞书机器人webhook发送(webhook URL从环境变量读取)。
- 请提供生成脚本示例,以及如何将推送集成到Skill中。
考虑到时间,可以先实现手动运行版本,再配置定时任务。
扩展预留说明:
- 抓取源可配置化,未来可动态添加/删除,甚至由用户自定义。
- 灵感生成使用大模型,未来可接入用户偏好,生成个性化选题。
- 推送模块抽象为
push_service,未来可增加邮件、短信等渠道。 - 数据存储使用JSON,未来可升级为数据库,便于分析和推荐。
阶段7:集成与演示准备(1.5小时)
目标:将所有模块集成,确保流畅运行,准备面试演示脚本。
详细步骤:
-
将前端App与后台打通:
- 首页灵感卡片从本地文件读取(如果Skill已运行)或显示静态示例。
- 确保推送通知能唤起App(配置deeplink,可选)。
-
全面测试核心流程:拍照→生成→切换场景→保存→复制。
-
编写演示脚本(3分钟),涵盖亮点:
- 首页展示今日灵感(证明后台Agent工作)。
- 拍照生成,展示工作流可视化。
- 手动切换场景/风格,展示个性化。
- 保存和复制功能。
-
准备面试话术,针对可能的问题(如为什么不用App内推送、如何扩展多Agent等)。
给OpenClaw的Prompt示例:
请帮我准备最终的集成和演示材料:
1. 指导我如何将OpenClaw生成的灵感数据(~/inspirations.json)在App首页展示:可以在HomeScreen中读取该文件(如果App能访问),或通过简单的HTTP服务器提供接口。提供一个简单的Node.js脚本作为临时服务器。
2. 编写一份3分钟的演示脚本,分步骤说明演示流程和对应的技术亮点。
3. 列出可能遇到的坑(如Expo Go中无法使用某些原生模块)及解决方案。
4. 提供面试常见问题的回答要点,包括:
- 为什么用OpenClaw而不是自建后台?
- 工作流是真实的Agent吗?如何扩展?
- 如何保证推送到达率?
- 未来如何实现多Agent协作?
扩展预留说明:
- 首页灵感读取方式抽象为
fetchInspirations函数,未来可替换为API调用。 - 演示脚本强调了扩展点,让面试官看到你的设计远见。
五、后续迭代想法(扩展蓝图)
在MVP成功验证核心价值后,我们计划从深度和广度两个维度持续迭代,打造一个真正的AI创作平台。
5.1 近期迭代(1-3个月)
5.1.1 产品功能完善
- 真实API替换:将mock AI生成切换为正式的多模态API(如GPT-4V),优化prompt工程,提升生成文案的质量和多样性。
- 知识库升级:将本地JSON知识库迁移至向量数据库(如Pinecone、Weaviate),实现真正的RAG检索增强,根据用户图片内容动态检索最相关的优质笔记作为参考。
- 多图支持:支持用户一次上传多张图片,AI自动生成图文混排的笔记,并可手动调整图片顺序。
- 历史记录优化:增加历史笔记的分类搜索、标签管理功能,方便用户回溯。
5.1.2 技术架构升级
-
Agent拆分:将当前单一Agent拆分为三个独立Agent,通过消息队列(如Redis Pub/Sub)协作:
- Crawler Agent:专注热点抓取,结果存入数据库。
- Inspiration Agent:订阅抓取事件,生成灵感并推送。
- Personalization Agent:分析用户行为,更新用户画像,为生成提供个性化参数。
-
推送渠道扩展:增加App内远程推送(APNs/FCM),取代飞书/钉钉,提升用户体验。推送模块抽象为
PushService,支持多渠道配置。
5.2 中期迭代(3-6个月)
5.2.1 个性化与社交
- 用户画像与学习:基于用户历史生成记录、点赞/踩反馈,训练轻量级模型,学习用户偏好的语气、常用词、场景倾向,实现真正的个性化生成。
- 灵感社区:用户可公开自己的灵感和生成的笔记,其他人可点赞、评论、借鉴。引入“热度榜”和“达人榜”,形成UGC生态。
- 协作创作:支持多个用户共同编辑一篇笔记,或AI与用户协同创作(AI初稿→用户修改→AI学习)。
5.2.2 多模态扩展
- AI配图建议:根据文案内容,自动推荐或生成配图(调用文生图模型如DALL·E、Midjourney)。
- 视频笔记生成:支持上传视频,AI自动提取关键帧、生成字幕和配音,一键生成短视频笔记。
5.2.3 平台化与开放
- 开放API:提供第三方平台接入API,允许美团、携程等合作伙伴集成我们的创作能力。
- Skill市场:开放OpenClaw Skill开发能力,让开发者上传自定义Agent Skill(如“美食点评Agent”、“旅游攻略Agent”),用户可自由安装,打造个人专属创作Agent。
5.3 长期愿景
- Agent生态:成为内容创作领域的“Agent操作系统”,用户通过组合不同Agent构建个性化工作流(如“热点追踪→素材收集→文案生成→多平台发布”全自动流水线)。
- 创作者经济:优质Agent开发者可获得收益分成,形成创作者经济闭环。
- 跨模态大模型:自研或深度定制垂直领域的多模态模型,针对种草笔记场景优化生成效果,形成技术壁垒。
六、总结与心得
6.1 项目总结
灵感笔记项目从0到1,在12小时内完成了一个可演示的多模态AI创作助手Demo,核心成果包括:
- 前端跨端App:基于React Native+Expo,实现了拍照选图、工作流可视化、场景/风格切换、个性化记忆等功能。
- 后台Agent系统:基于OpenClaw平台,开发了两个自定义Skill,实现了每日热点抓取、灵感生成与推送的自动化流程。
- 架构设计:通过模块化、配置化、抽象接口,为未来多Agent协作、RAG增强、个性化学习等扩展预留了充足的口子。
- 面试准备:梳理了完整的产品文档、技术选型、开发步骤、迭代蓝图,并准备了应对面试官可能提问的话术。
6.2 技术亮点
- 多Agent协作架构:虽然Demo中简化了,但设计上遵循了“单一职责、事件驱动、数据解耦”原则,可平滑升级为真实多Agent系统。
- MCP协议应用:通过MCP Server连接外部工具(HTTP、OpenAI、文件系统),使Skill开发聚焦业务逻辑,而非底层通信。
- 工作流可视化:前端模拟Agent思考过程,既提升了用户体验,也展示了技术深度。
- 配置化与扩展预留:从API开关到抓取源配置,从知识库到推送渠道,处处留有扩展点,体现了工程化思维。
6.3 遇到的挑战与解决方案
-
挑战1:12小时极限开发
- 解决:严格遵循MVP原则,优先实现核心流程,使用mock和现成服务(OpenClaw、飞书机器人)快速验证,复杂功能留待后续。
-
挑战2:如何展示技术深度而非简单API调用
- 解决:通过工作流可视化、场景/风格切换、模拟RAG、Agent架构设计,让面试官看到我们对AI工程化的深入理解。
-
挑战3:后台定时任务与推送
- 解决:选用OpenClaw平台,内置定时器和推送Skill,避免了自建服务器的复杂性和不稳定性。
6.4 面试心得
通过这个项目的准备,我深刻体会到:
- 技术选型是权衡的艺术:没有万能方案,只有最适合当前约束的方案。在时间紧、追求亮点的情况下,选择OpenClaw+Expo是高效且能体现前瞻性的。
- 架构设计要“瞻前顾后” :既要快速落地,也要为未来铺路。预留扩展点不是过度设计,而是专业性的体现。
- 面试要“以点带面” :一个精心设计的Demo可以承载多个技术维度(跨端、AI Agent、工程化、产品思维),关键在于如何讲好背后的故事。
6.5 对未来的展望
灵感笔记不仅是面试的敲门砖,更是一个有潜力的创意工具。未来随着AI Agent生态的成熟,这类个性化、自动化、可组合的创作助手将成为内容创作者不可或缺的伙伴。我将持续关注该领域的发展,并在实际工作中践行“AI赋能创作”的理念。
附录:APP使用流程时序图(Mermaid)
时序图说明:
- 蓝色部分:后台Agent的自动化流程,每天定时执行,与用户操作解耦。
- 绿色部分:用户核心创作流程,从选图到生成、调整、保存。
- 橙色部分:用户与App的交互反馈,展示个性化能力和数据持久化。
- 虚线箭头:表示可选或后台触发的动作(如通知唤起App)。