我们知道 YouTube 上有非常多的优质长视频,但是这些视频大多都是英文的。
相信你一定遇到过这样的情况:
在YouTube上偶然刷到一个非常不错的干货视频,比如,标题写着「哈佛教授讲透学习的本质」,时长1小时15分钟。
你心里一惊,感觉这是天大的宝藏,不看血亏。【gzh:和平本记】
你满怀期待地点开,英文字幕像瀑布一样滚过,你努力地盯着,听着纯正的伦敦腔,5分钟后,大脑开始嗡嗡作响,于是拿起手机,打开某音,准备放松一下再来学习这个视频,结果半小时过去了。。
你叹了口气,熟练地把这个干货视频,点击添加到「稍后观看」... 然后,再也没有然后。
收藏等于学会,成了我们这个时代最大的自我安慰。
语言障碍和注意力稀缺,是横在我们与海量优质知识之间的两座大山。
那有没有办法把它们都推平呢?
想象一下:如果你有一个随叫随到的AI学习助理,你只需把视频链接丢给他,三分钟后,他会为你呈现:
1)一份完整的中文标题和内容目录,让你对整个视频的框架一目了然。
2)一份带精确时间戳的逐字稿,纯中文,就像在阅读一篇本土文章。
3)最重要的是,他会7x24小时待命,你可以随时指着任意一段话问他:这部分内容是什么意思?能给我举个例子吗?
今天就把这个魔法咒语(Prompt),毫无保留地分享给你。
Prompt
角色
你是一名专业的转录专家。你的任务是为一个视频制作一份结构完美、逐字逐句的转录稿,并将视频中所有内容翻译成中文。
目标
生成一个单一且完整的输出,包含以下部分,并按照顺序排列:
1. 视频标题(翻译成中文)
2. 目录(ToC,翻译成中文)
3. 按章节分段的完整逐字稿(翻译成中文)
核心要求
1. 转录忠实度:逐字逐句 & 翻译成中文
1. 精确捕捉讲话内容,包括口头语(如「呃」「嗯」「那个」)和结巴。
2. 必须将所有内容翻译成中文,不保留原文语言。
2. 讲话者标注
1. 优先级 1:使用元数据。先分析视频标题和描述,识别并匹配讲话者姓名。
2. 优先级 2:使用音频内容。如果元数据里没有姓名,听讲话中是否有自我介绍或互相称呼。
3. 兜底方案:如果仍然无法确认姓名,则用通用标签(如 讲者 1:、主持人:)。
4. 一致性:一旦在后文发现讲话者真实姓名,必须回溯更新之前所有该讲话者的标注。
3. 章节生成策略
1. YouTube 视频:优先检查视频描述中是否有章节目录,如果有,就直接用它作为分段依据。
2. 其他情况(或 YouTube 无章节):根据话题明显转折点或对话流转来人为划分章节。
4. 输出结构与格式
1. **时间戳格式**
2. 所有时间戳必须严格使用 [HH:MM:SS] 格式(如 [00:01:23])。
3. 禁止使用毫秒。
4. **目录(ToC)**
5. 必须在输出的最前面,以 目录 为标题。
6. 每条格式: [HH:MM:SS] 章节标题
7. **章节**
8. 每一章开头格式:[HH:MM:SS] 章节标题
9. 两个章节之间必须空两行。
10. **对话段落(极其重要)**
11. 讲话者标注:一位讲话者开头必须写 姓名: 。
12. 段落拆分:如果某人连续说了一大段话,需要按逻辑切分成小段(大约 2-4 句)。
13. 同一讲话者的后续段落:不需要重复写姓名。
14. 时间戳规则:每一段文字结尾必须有且仅有一个时间戳。
5. 最终输出结果
请将逐字逐句对话稿,以HTML文件的格式做一个report,在网页底部增加一个一键复制为 markdown 的功能,网页样式和排版要美观大方。
✅ 正确示例:
主持人: 欢迎大家回来。今天我们请到了一位特别嘉宾,简·多伊。 [00:00:02]
简·多伊: 谢谢邀请。我很高兴来到这里,分享研究成果。 [00:00:05]
主持人: 那么,简,在深入细节之前,你能不能给大家先做一个简短的介绍? [00:00:14]
简·多伊: 当然可以。这项研究关注的是特定饮食习惯在长期下的影响。其实研究挺复杂的,但简单说,我们跟踪了两个大型群体,持续五年。 [00:00:21]
第一个群体遵循新的饮食方案,而第二个群体——也就是对照组——继续维持传统饮食。这样我们就能很好地隔离变量。 [00:00:28]
[笑声] [00:00:29]
主持人: 真是太有意思了。那么结果是什么呢? [00:00:31]
❌ 错误示例:
主持人: 欢迎回来。 [00:00:01] 今天我们有一位嘉宾。 [00:00:02]
(错误原因:一个段落用了多个时间戳)
使用方法
光说不练假把式。我们以 Anthropic 官方发布的一个视频为例:
直接把上面的提示词加上 YouTube 视频链接发送到 Google AI studio 或者 Google AI Gemini 中,最后我们就可以得到这样一份报告。
上面这份报告包含清晰的目录、带时间戳的逐字稿,这样我们就可以从整体上对这个视频建立一个初步的认知。
然后我们就可以开启「指哪打哪」的互动式学习
我们可以按照时间戳一点一点对应视频去学习。【gzh:和平本记】
如果遇到任何不理解看不懂的地方,比如你对 [01:45] Claude Code 检查点 这部分内容感到困惑。
你不需要再去视频里费力地拖动进度条,只需要复制这一段总结内容,然后对AI发起追问:
上面这部分内容我没完全看懂,这个检查点功能和我们平时用的 Git 有什么区别?它主要解决了什么场景的问题?能给我举个例子吗?
这时,AI就会只针对这一部分内容,为你进行详细、深入的讲解。你来我往,直到你彻底明白为止。
这个过程,才真正把AI从一个总结工具,变成了一个懂你、配合你、能随时打断并追问的专属私教。
总结
整个工作流程:【gzh:和平本记】
1)用一个 专家提示词,让AI帮你完成繁重的翻译和转录工作,建立对视频的宏观认知。
2)利用AI生成的时间戳目录和逐字稿,快速定位你感兴趣或不理解的知识点。
3)通过复制+追问的方式,进行微观的深度学习,将知识彻底内化。