用 GPT-Realtime-2 做一个 AI 陪学插件:边看边问,学完生成学习文章

1 阅读4分钟

OpenAI 最近推出了 GPT-Realtime-2,这是一个面向实时语音交互的模型。相比传统“先转文字、再生成回答、再转语音”的体验,Realtime 的重点是让 AI 更自然地参与到一段正在发生的对话里:你可以直接开口问,它可以用语音回应,也能根据当前上下文继续交流。

这对学习场景很有启发。因为我们真正卡住的时刻,往往不是学习结束以后,而是在视频还在播放、讲者刚讲完一个概念、页面里突然出现一个陌生术语的时候。 所以我做了一个小插件,叫 AI Study,中文可以叫 AI 陪学(github.com/zhanghemama…

它想解决的问题很简单: 当我正在看一个 AI 视频、读一篇技术文章、刷一条 X thread 的时候,我能不能直接开口问:“这段在讲什么?” 中文演示视频 ai-study-demo-zh.mov AI Study 是什么 AI Study 是一个浏览器侧边栏插件。你打开 YouTube、X、技术文章或文档时,它会在旁边保持一个很轻的学习入口。 你不需要复制链接,也不需要切到另一个聊天窗口。看到不懂的地方,按住按钮直接问就行。 比如: text 他现在在讲什么?刚才这段是什么意思?这里说的 agent 是什么?帮我记一下这个点。 AI Study 会在你提问时暂停视频,回答完以后再继续播放。这个交互很像你旁边坐着一个一起看视频的人:你随时可以打断、追问、让它帮你记住一个点。

用户怎么用 现在的使用方式很简单: 打开一个正在学习的网页或 YouTube 视频。 打开 AI Study 侧边栏。 按住语音按钮,问你此刻不懂的问题。 如果某个解释值得留下,说“记一下”。 学完后点击“生成学习文章”。 生成出来的 HTML 学习文章会包含: 视频或网页的核心内容 关键概念解释 值得记住的片段 可以带走的观点 由你问过的问题整理出来的学习笔记 这个功能不是单纯生成一段总结,而是把这次学习过程沉淀成一篇更容易复习和分享的内容。

产品亮点

  1. 它发生在学习现场 很多 AI 工具是在学习结束之后帮你整理,比如总结链接、生成笔记、做知识卡片。 AI Study 更想做的是“学习正在发生时”的陪伴。你不需要等到看完以后再回忆自己哪里不懂,而是在卡住的那一刻直接问。
  2. 语音比复制粘贴更自然 看视频时,复制链接再去问 AI 很打断节奏。语音的好处是,你可以保持在原来的学习流里,只需要按住说一句话。 这也是 GPT-Realtime-2 这类实时语音模型适合这个方向的原因:它让 AI 从一个“事后整理工具”,变成一个可以在现场对话的学习伙伴。
  3. “记一下”让学习留下痕迹 很多时候我们听懂了,但很快就忘了。 AI Study 支持在对话中直接说“记一下”。它会把当前解释保存成学习笔记,保留来源和上下文。这样你不是只得到一次回答,而是慢慢积累自己的理解路径。
  4. 学完后生成 HTML 学习文章 当你觉得这次学习内容值得保留,可以点击“生成学习文章”。 它会把视频内容、关键概念、你问过的问题和保存过的笔记整理成一篇 HTML 内容。这个形式比普通聊天记录更易读,也更适合分享给别人或之后复习。
  5. 文章里保留“我问过什么” 同一个视频,不同的人真正卡住的点是不一样的。 所以 AI Study 生成的文章不只回答“这个视频讲了什么”,还会保留“我是怎么一步步理解它的”。底部的学习笔记来自用户问过的问题,这让文章更像个人学习成果,而不是一篇通用摘要。

为什么我觉得这个方向值得做 AI 内容越来越多,学习成本也越来越高。很多时候我们不是缺资料,而是缺一个能在学习现场随时解释、追问、记录的人。 AI Study 想成为这样的入口: 听不懂时,可以立刻问。 想记住时,可以直接说“记一下”。 看完以后,可以生成一篇文章。 文章里既有内容本身,也有自己问出来的理解路径。 它不需要替代浏览器,也不需要替代 YouTube、X 或文档网站。它更像贴在学习现场旁边的一个轻量 workspace:不喧宾夺主,但你需要的时候它就在。

参考资料 OpenAI API Docs: gpt-realtime-2 model OpenAI API Docs: Realtime API guide