📸 用一张照片记住一个单词:我用 Vue3 + Kimi Vision + TTS 打造了一个「拍照记单词」AI学习 App

4 阅读4分钟

“所有的产品,都值得用 AI 重新做一遍。”
—— 在 AIGC 时代,这句话正成为现实。


🌟 起源:一个真实的学习痛点

你有没有过这样的经历?

  • 在国外餐厅点餐,看到菜单上的 “avocado”,却怎么也想不起是“牛油果”;
  • 看到长颈鹿(giraffe)的照片,脑子里只冒出“那个脖子很长的动物”;
  • 遇到尴尬(awkward)场景,却卡在“怎么说这个词?”。

传统背单词 App(如百词斩、扇贝)虽然优秀,但它们大多依赖抽象记忆——看中文释义、听例句、刷卡片。而人类大脑天生更擅长通过图像+情境来记忆。

于是,我萌生了一个想法:

能不能拍一张照片,AI 就告诉我这张图最能代表哪个英文单词?还能生成例句、解释、甚至语音?

这就是 「拍照记单词」AI 学习 App 的起点。


🧠 产品核心理念:让单词“活”在真实世界里

我们的目标不是替代百词斩,而是开辟一个新场景

  • 跨国生活/旅游:看到实物 → 拍照 → 学单词;
  • 视觉型学习者:图片比文字更容易触发联想;
  • 低门槛输入:无需打字,只需上传或拍摄一张图。

这背后,是对 多模态 AI(Multimodal AI) 能力的极致利用——图像理解 + 自然语言生成 + 语音合成,三位一体。


⚙️ 技术栈:轻量但前沿

层级技术选型
前端Vue 3 + TypeScript + Composition API
后端无(纯前端调用 API,适合快速验证)
多模态模型Kimi Vision(moonshot-v1-8k-vision-preview)
语音合成(TTS)第三方 TTS 服务(支持情感化语音)
图片处理FileReader + Base64 编码

整个应用没有后端服务器,所有逻辑在浏览器中完成,符合现代 Web 应用的“边缘智能”趋势。


🖼️ 核心交互流程

  1. 用户点击相机图标,选择或拍摄一张图片;

  2. 前端将图片转为 Base64,连同 Prompt 一起发送给 Kimi Vision API;

  3. AI 返回结构化 JSON:

    {
      "image_discription": "一只长颈鹿站在草原上",
      "representative_word": "giraffe",
      "example_sentence": "The giraffe has a very long neck.",
      "expaination": "Look at this animal. It has a very long neck. It eats leaves from tall trees. Have you ever seen one in real life?",
      "expaination_replys": ["Yes, I saw one at the zoo!", "No, but I want to!"]
    }
    
  4. 前端解析数据,展示单词、播放例句语音;

  5. 点击 “Talk about it”,展开详细解释与互动问答。

💡 Prompt 设计是关键:我们明确要求 AI 使用 A1~A2 级别词汇、返回 JSON、以 “Look at...” 开头解释,并生成日常对话回复——这确保了输出可控、教育性强、可交互


🔊 无障碍与用户体验细节

  • 语义化 HTML<label for="selecteImage"> 确保屏幕阅读器可访问;
  • Base64 即时预览:用户上传后立刻看到图片,无等待感;
  • 语音反馈:TTS 自动生成自然语音,强化听觉记忆;
  • 折叠式详情面板:默认简洁,点击展开深度内容,避免信息过载。
<input type="file" id="selecteImage" accept="image/*" />
<label for="selecteImage">...</label>

这种设计不仅美观,更体现了 Inclusive Design(包容性设计) 的理念。


🎯 为什么这个点子“够痛”?

场景传统方式痛点我们的解法
海外点餐不认识菜单单词拍菜单 → 得单词+发音
旅行见闻忘记动植物名称拍动物 → 学“giraffe”
日常物品中文思维卡壳拍杯子 → 学“mug”而非“cup”

这不是“锦上添花”,而是解决真实沟通障碍


🌍 出海潜力 & 商业想象

  • 多语言支持:未来可扩展为“拍图学日语/西班牙语”;
  • AI 对话练习:基于 expaination_replys 构建简单对话机器人;
  • 儿童教育市场:用图片+语音教孩子英语,天然契合;
  • 与 Duolingo 差异化:Duolingo 强在游戏化,我们强在真实世界锚定

正如 Readme 中所写:

“创意、规划、商业、共情——AI 产品经理的新四维。”


🛠️ 开发中的挑战与思考

  1. 多模态模型成本高:Vision API 调用费用远高于文本模型,需优化调用频率;
  2. Base64 体积大:大图可能导致请求失败,未来可加压缩或裁剪;
  3. TTS 服务稳定性:第三方 TTS 可能限流,考虑 fallback 到 Web Speech API;
  4. 单词准确性:AI 可能误判(如把“斑马”说成“horse”),需加入用户反馈机制。

但这些,都不妨碍我们先做出 MVP,再迭代


✨ 结语:AI 时代的“微创新”力量

这个项目代码不到 300 行,却融合了:

  • 前端工程能力(Vue3 + TS + 文件处理)
  • AI 产品思维(Prompt Engineering + 场景定义)
  • 教育心理学洞察(图像记忆 > 抽象记忆)

它证明了:一个人,一台电脑,一个好想法,就能做出有温度的 AI 产品。

“不是所有创新都需要颠覆,有时,只需要让学习变得更自然一点。”