用 GPT-Realtime-2 做一个 AI 陪学插件：边看边问，学完生成学习文章OpenAI 最近推出了 GPT-R

OpenAI 最近推出了 GPT-Realtime-2，这是一个面向实时语音交互的模型。相比传统“先转文字、再生成回答、再转语音”的体验，Realtime 的重点是让 AI 更自然地参与到一段正在发生的对话里：你可以直接开口问，它可以用语音回应，也能根据当前上下文继续交流。

这对学习场景很有启发。因为我们真正卡住的时刻，往往不是学习结束以后，而是在视频还在播放、讲者刚讲完一个概念、页面里突然出现一个陌生术语的时候。所以我做了一个小插件，叫 AI Study，中文可以叫 AI 陪学(github.com/zhanghemama…

它想解决的问题很简单：当我正在看一个 AI 视频、读一篇技术文章、刷一条 X thread 的时候，我能不能直接开口问：“这段在讲什么？” 中文演示视频 ai-study-demo-zh.mov AI Study 是什么 AI Study 是一个浏览器侧边栏插件。你打开 YouTube、X、技术文章或文档时，它会在旁边保持一个很轻的学习入口。你不需要复制链接，也不需要切到另一个聊天窗口。看到不懂的地方，按住按钮直接问就行。比如： text 他现在在讲什么？刚才这段是什么意思？这里说的 agent 是什么？帮我记一下这个点。 AI Study 会在你提问时暂停视频，回答完以后再继续播放。这个交互很像你旁边坐着一个一起看视频的人：你随时可以打断、追问、让它帮你记住一个点。

用户怎么用现在的使用方式很简单：打开一个正在学习的网页或 YouTube 视频。打开 AI Study 侧边栏。按住语音按钮，问你此刻不懂的问题。如果某个解释值得留下，说“记一下”。学完后点击“生成学习文章”。生成出来的 HTML 学习文章会包含：视频或网页的核心内容关键概念解释值得记住的片段可以带走的观点由你问过的问题整理出来的学习笔记这个功能不是单纯生成一段总结，而是把这次学习过程沉淀成一篇更容易复习和分享的内容。

产品亮点

它发生在学习现场很多 AI 工具是在学习结束之后帮你整理，比如总结链接、生成笔记、做知识卡片。 AI Study 更想做的是“学习正在发生时”的陪伴。你不需要等到看完以后再回忆自己哪里不懂，而是在卡住的那一刻直接问。
语音比复制粘贴更自然看视频时，复制链接再去问 AI 很打断节奏。语音的好处是，你可以保持在原来的学习流里，只需要按住说一句话。这也是 GPT-Realtime-2 这类实时语音模型适合这个方向的原因：它让 AI 从一个“事后整理工具”，变成一个可以在现场对话的学习伙伴。
“记一下”让学习留下痕迹很多时候我们听懂了，但很快就忘了。 AI Study 支持在对话中直接说“记一下”。它会把当前解释保存成学习笔记，保留来源和上下文。这样你不是只得到一次回答，而是慢慢积累自己的理解路径。
学完后生成 HTML 学习文章当你觉得这次学习内容值得保留，可以点击“生成学习文章”。它会把视频内容、关键概念、你问过的问题和保存过的笔记整理成一篇 HTML 内容。这个形式比普通聊天记录更易读，也更适合分享给别人或之后复习。
文章里保留“我问过什么” 同一个视频，不同的人真正卡住的点是不一样的。所以 AI Study 生成的文章不只回答“这个视频讲了什么”，还会保留“我是怎么一步步理解它的”。底部的学习笔记来自用户问过的问题，这让文章更像个人学习成果，而不是一篇通用摘要。

为什么我觉得这个方向值得做 AI 内容越来越多，学习成本也越来越高。很多时候我们不是缺资料，而是缺一个能在学习现场随时解释、追问、记录的人。 AI Study 想成为这样的入口：听不懂时，可以立刻问。想记住时，可以直接说“记一下”。看完以后，可以生成一篇文章。文章里既有内容本身，也有自己问出来的理解路径。它不需要替代浏览器，也不需要替代 YouTube、X 或文档网站。它更像贴在学习现场旁边的一个轻量 workspace：不喧宾夺主，但你需要的时候它就在。

参考资料 OpenAI API Docs: gpt-realtime-2 model OpenAI API Docs: Realtime API guide