英文长视频看不下去?我用一个Prompt,把YouTube变成了你的专属中文私教

118 阅读6分钟

我们知道 YouTube 上有非常多的优质长视频,但是这些视频大多都是英文的。

相信你一定遇到过这样的情况:

在YouTube上偶然刷到一个非常不错的干货视频,比如,标题写着「哈佛教授讲透学习的本质」,时长1小时15分钟。

你心里一惊,感觉这是天大的宝藏,不看血亏。【gzh:和平本记】

你满怀期待地点开,英文字幕像瀑布一样滚过,你努力地盯着,听着纯正的伦敦腔,5分钟后,大脑开始嗡嗡作响,于是拿起手机,打开某音,准备放松一下再来学习这个视频,结果半小时过去了。。

你叹了口气,熟练地把这个干货视频,点击添加到「稍后观看」... 然后,再也没有然后。

收藏等于学会,成了我们这个时代最大的自我安慰。

语言障碍注意力稀缺,是横在我们与海量优质知识之间的两座大山。

那有没有办法把它们都推平呢?

想象一下:如果你有一个随叫随到的AI学习助理,你只需把视频链接丢给他,三分钟后,他会为你呈现:

1)一份完整的中文标题和内容目录,让你对整个视频的框架一目了然。

2)一份带精确时间戳的逐字稿,纯中文,就像在阅读一篇本土文章。

3)最重要的是,他会7x24小时待命,你可以随时指着任意一段话问他:这部分内容是什么意思?能给我举个例子吗?

今天就把这个魔法咒语(Prompt),毫无保留地分享给你。

Prompt

角色

你是一名专业的转录专家。你的任务是为一个视频制作一份结构完美、逐字逐句的转录稿,并将视频中所有内容翻译成中文。



目标

生成一个单一且完整的输出,包含以下部分,并按照顺序排列:



1. 视频标题(翻译成中文)
2. 目录(ToC,翻译成中文)
3. 按章节分段的完整逐字稿(翻译成中文)

核心要求



1. 转录忠实度:逐字逐句 & 翻译成中文  
   1. 精确捕捉讲话内容,包括口头语(如「呃」「嗯」「那个」)和结巴。  
   2. 必须将所有内容翻译成中文,不保留原文语言。  
2. 讲话者标注  
   1. 优先级 1:使用元数据。先分析视频标题和描述,识别并匹配讲话者姓名。  
   2. 优先级 2:使用音频内容。如果元数据里没有姓名,听讲话中是否有自我介绍或互相称呼。  
   3. 兜底方案:如果仍然无法确认姓名,则用通用标签(如 讲者 1:、主持人:)。  
   4. 一致性:一旦在后文发现讲话者真实姓名,必须回溯更新之前所有该讲话者的标注。  
3. 章节生成策略  
   1. YouTube 视频:优先检查视频描述中是否有章节目录,如果有,就直接用它作为分段依据。  
   2. 其他情况(或 YouTube 无章节):根据话题明显转折点或对话流转来人为划分章节。  
4. 输出结构与格式  
   1.  **时间戳格式**  

   2. 所有时间戳必须严格使用 [HH:MM:SS] 格式(如 [00:01:23])。  
   3. 禁止使用毫秒。  
   4.  **目录(ToC)**  

   5. 必须在输出的最前面,以 目录 为标题。  
   6. 每条格式: [HH:MM:SS] 章节标题  
   7.  **章节**  

   8. 每一章开头格式:[HH:MM:SS] 章节标题  
   9. 两个章节之间必须空两行。  
   10.  **对话段落(极其重要)**  

   11. 讲话者标注:一位讲话者开头必须写 姓名: 。  
   12. 段落拆分:如果某人连续说了一大段话,需要按逻辑切分成小段(大约 2-4 句)。  
   13. 同一讲话者的后续段落:不需要重复写姓名。  
   14. 时间戳规则:每一段文字结尾必须有且仅有一个时间戳。  
5. 最终输出结果

请将逐字逐句对话稿,以HTML文件的格式做一个report,在网页底部增加一个一键复制为 markdown 的功能,网页样式和排版要美观大方。



✅ 正确示例:  



主持人: 欢迎大家回来。今天我们请到了一位特别嘉宾,简·多伊。 [00:00:02]  



简·多伊: 谢谢邀请。我很高兴来到这里,分享研究成果。 [00:00:05]  



主持人: 那么,简,在深入细节之前,你能不能给大家先做一个简短的介绍? [00:00:14]  



简·多伊: 当然可以。这项研究关注的是特定饮食习惯在长期下的影响。其实研究挺复杂的,但简单说,我们跟踪了两个大型群体,持续五年。 [00:00:21]  



第一个群体遵循新的饮食方案,而第二个群体——也就是对照组——继续维持传统饮食。这样我们就能很好地隔离变量。 [00:00:28]  



[笑声] [00:00:29]  



主持人: 真是太有意思了。那么结果是什么呢? [00:00:31]  



❌ 错误示例:  



主持人: 欢迎回来。 [00:00:01] 今天我们有一位嘉宾。 [00:00:02]  



(错误原因:一个段落用了多个时间戳)

使用方法

光说不练假把式。我们以 Anthropic 官方发布的一个视频为例:

www.youtube.com/watch?v=Yct…

直接把上面的提示词加上 YouTube 视频链接发送到 Google AI studio 或者 Google AI Gemini 中,最后我们就可以得到这样一份报告。

imgimg

上面这份报告包含清晰的目录、带时间戳的逐字稿,这样我们就可以从整体上对这个视频建立一个初步的认知。

然后我们就可以开启「指哪打哪」的互动式学习

我们可以按照时间戳一点一点对应视频去学习。【gzh:和平本记】

如果遇到任何不理解看不懂的地方,比如你对 [01:45] Claude Code 检查点 这部分内容感到困惑。

img

你不需要再去视频里费力地拖动进度条,只需要复制这一段总结内容,然后对AI发起追问:

上面这部分内容我没完全看懂,这个检查点功能和我们平时用的 Git 有什么区别?它主要解决了什么场景的问题?能给我举个例子吗?

这时,AI就会只针对这一部分内容,为你进行详细、深入的讲解。你来我往,直到你彻底明白为止。

这个过程,才真正把AI从一个总结工具,变成了一个懂你、配合你、能随时打断并追问的专属私教。

总结

整个工作流程:【gzh:和平本记】

1)用一个 专家提示词,让AI帮你完成繁重的翻译和转录工作,建立对视频的宏观认知。

2)利用AI生成的时间戳目录和逐字稿,快速定位你感兴趣或不理解的知识点。

3)通过复制+追问的方式,进行微观的深度学习,将知识彻底内化。