音频领域的实用型 AI为开启本书接下来的主要部分，我们将聚焦于执行音频实用任务的 AI 工具。这些任务可能会涉及一定程度

为开启本书接下来的主要部分，我们将聚焦于执行音频实用任务的 AI 工具。这些任务可能会涉及一定程度的生成，但重点在于清理、分析，或是带来新的工作流——让你的工作更轻松或更快速。事实上，这些工具已经让我的视频制作与后期制作流程变得更快、更可靠，彻底打破了过去关于音频“能做到什么”的旧规则。

如今，视频剪辑师可以借助 AI 更快找到素材，让客户更直接地参与剪辑流程，并修复那些过去往往意味着必须重拍的音频问题。虽然我个人是从摄像师与视频剪辑师的视角来使用这些工具，但播客制作与一般音频制作同样能从中受益。

下一章会讨论以视频为重点的工具，但在这里，我们关注的是音频——即便它是在视频语境中被使用。

在本章，以及本书后续内容中，我们会先用标题引出 AI 能帮助完成的任务，再进一步探索具体工具与相关工作流。请记住，新工具会不断出现，这里讨论的选择也并非唯一。只要可能，我们会优先讨论那些容易获取、价格合理、且来自可靠提供商的工具——但我们也可能会提到一些新的实验性工具。

在这里，我们将讨论以下内容：

转写与基于文本的剪辑
对白清理
音频重混（remix）
选择音乐分轨（stems）
识别音乐节拍（beats）

转写与基于文本的剪辑

就在几年前，计算机转写——常用于字幕——还很原始且错误频出。你可以用便宜的服务拿到一份明显有问题的转写；或者付费使用像 rev（www.rev.com/）这样的服务，以大约每分钟 1 美元的成本获得好得多的结果。转写最常见的用途是用于最终成片，而不是源素材。

如今，一个名为 Whisper（whisperai.com/）的 AI 系统——由 OpenAI 创建并在 2022 年以开源形式发布——成为了许多现代转写服务的核心，这些服务成本很低，并且没有按分钟计费的处理费用。Whisper 支持多种语言，但准确率会因语言不同而有所差异，并且并非所有系统都支持多语言。例如，在写作本书时，Final Cut Pro（FCP）的字幕生成速度很快，但它官方只支持美式英语。

进步并未放缓，最好的算法已经在原始 Whisper 之上进一步提升。它们能给出极佳的结果，可能还能识别不同说话人，并处理多语言输入。我惊喜地发现，很多小时的演讲转写通常能正确拼写（并正确大写）大多数地名、公司名与组织名。

不过，只要涉及人名，你仍然需要手动校正。几乎所有名字都有多种可能的拼写，计算机无法知道该写 “Gerry”、 “Jerry”，还是 “Geri”。人类往往能从上下文推断正确拼写（比如名字可能在画面上显示），但只处理音频的程序只能做出它认为最合理的猜测。

这些缺陷再次提醒我们：在许多 AI 辅助流程里，人类仍然应该参与其中。不过，并不是每个场景都需要逐字纠错。公开视频配套字幕当然应该准确；但如果你只是为即将剪辑的视频片段制作转写，那么在海量源素材里快速定位某句话会变得容易得多。在这些场景中，转写带来的收益往往大于它的瑕疵。

值得注意的是，尽管许多视频平台支持为上传视频自动生成字幕，但它们往往并不好。例如，YouTube 的自动字幕已经提供很多年了，却并没有变好。更糟的是，如果问题字幕被“烧录”进视频里（比如 TikTok 帖子或 Instagram Reels），那错别字就会被永久保存，给所有观众带来更分心的观看体验。

转写已经变得非常普遍，你可以在以下工具中找到支持：

MacWhisper：Mac 上的付费应用，支持多种模型与多种输出格式

图 3.1——MacWhisper 对一次近期访谈的转写，并将 Segments 导出为 CSV

Adobe Premiere Pro：允许你为每个源素材片段启用自动转写，从而支持完整的基于文本的剪辑工作流
Final Cut Pro：可对任何时间线自动转写，并能在时间线索引中搜索
DaVinci Resolve：可对源素材片段自动转写，并由 AI IntelliScript 基于提供的脚本生成自动粗剪（rough cut）
Jumper：为主流视频剪辑应用提供源片段自动转写，以便在源素材中快速搜索对白

许多其他应用也提供转写服务，包括 macOS 以及主要的多模态 LLM 提供商，因此我不想把重点过多放在具体工具本身。不过，最适合的工具取决于你计划把这些转写用于哪些工作流。

混合式的基于文本的剪辑工作流

某些基于 AI 的转写用途看起来可能相对“平淡”，但它们依然可能以一种视频剪辑应用内部的文本剪辑无法做到的方式，彻底改变工作流。就在几年前，纪录片工作流还需要全面的现场记笔记、打标、交叉引用，以及反复拖拽时间线来找对的瞬间；但如今，如果你在剪辑过程中需要的信息能够被直接说出来，这就可能变成一件很轻松的事。

例如，在一次为期一周的拍摄中，我和三人团队一起出行（虽然我是唯一的视频专业人员），在澳大利亚四个不同地点采访了 27 个人。旅途中，我用 MacWhisper 把所有视频都做了转写，并以可用电子表格打开的格式交付给团队。他们很快就能用颜色把每个问题里最好的回答句子标出来，而我随后就能把这些时间码作为参考，在每个片段里标记出对应的区段。

因为每次拍摄还历历在目，我们能够记得具体采访对象以及他们的表达风格，从而为我们的选择提供语境。我们也使用了一些特定技巧来支撑基于转写的工作流：

每段视频开头都让受访者拼读（spell out）自己的名字。这能避免说话人识别与拼写方面的问题。
如果你计划对多个受访者问同一个问题（纪录片里很常见），就给每个“独立问题”编号，并在提问时把编号大声说出来。这会让你在转写稿里非常容易找到某个具体问题的答案，也允许采访者在需要时对问题进行轻微改写。
任何对剪辑重要的备注（例如 “That was a great take!”）都应该大声说出来，并靠近麦克风让它被录下来。
在 MacWhisper 中，将 Segments 导出为 .csv，把每一行拆成电子表格中带时间戳的行。由于转写里常包含逗号，这种格式用制表符而不是逗号来分隔列。用 Apple 的 Numbers 打开会自动格式化；如果你更喜欢 Excel，就用“数据”选项卡里的“分列（Text to Columns）”命令来正确格式化。
在任何非线性剪辑（NLE）软件里，你都可以仅凭时间码定位到片段中的某个时刻，因此务必创建从 0:00 开始的片段，确保协作者给出的引用时间能与你的素材对齐。

像这样的混合式工作流非常适合用于：内容决策由那些无法直接访问视频片段的人来做的场景，并且它适用于任何视频剪辑应用。阅读或搜索转写稿远比在一堆视频片段里找答案快得多，但务必提醒协作者注意以下几点：

转写常常会省略 “um”“ah” 和停顿，所以仅凭转写并不总能判断某个片段到底有多好
通常不会记录哪一条 take 是最好的，除非你在现场把它大声说出来
情绪并不会充分呈现出来：一句完美说出来的对白，可能不如一句带着情绪、但不那么完美的对白有冲击力
视频不像文本那样容易编辑，所以在提出修改请求时要记住这一点

虽然这些技巧基于非脚本（unscripted）的制作，但在较为脚本化的工作流中，AI 同样有用。Avid Media Composer 提供了 ScriptSync 选项（www.avid.com/products/me…），它使用基于 AI 的转写，把口头对白与提供的剧本对应起来。与其搜索你“希望某人说过”的词，这个工具能帮助剪辑师把剧本与真实拍到的素材链接起来。

混合式工作流可以非常有用；但如果你是一个有权独立做出所有视频决策的视频剪辑师，那么一个完整的基于文本的剪辑工作流会对你帮助巨大。前面的转写技巧仍然适用，你也可能用这些工作流来让协作者影响你的剪辑决策，但完整的文本剪辑又是另一种“野兽”。

完整的基于文本的剪辑工作流：Premiere Pro

在 Premiere Pro 中，先确保你已经启用了对所有片段的自动转写（如果你更喜欢，也可以手动转写片段）：

图 3.2——在“偏好设置”中启用自动转写

导入片段后，选择一段包含对白音频的片段，然后在右上角的工作区菜单中启用 Text-Based Editing（基于文本剪辑）工作区。

此时 Text 面板应当会变为可用，并在顶部包含三个标签页引导你完成流程。左侧的 Transcript 标签页应该已经显示了所选片段的转写文本。转写中可能会有错误，就像这里展示的片段一样：

图 3.3——原始转写：总体不错，但有少量错误

如果你想纠正这些错误，你可以像在任何文字处理器里一样直接编辑文本；如果你打算稍后用这份转写来生成字幕，这样做是个好主意。如果你会用别的方式生成最终字幕，这一点就没那么重要。

图 3.4——使用转写上方的铅笔“编辑”按钮来修正错误

当你在转写中选中某些词时，右侧的片段或序列时间线中对应部分也会被选中。反过来，当你播放片段或序列时，文本也会在对应位置被高亮显示。

要用转写来剪辑，你现在有两个选择。第一种：如果你已经把片段加进了一个序列，你可以在序列里选中该片段，然后在转写里选中你不想保留的词，再按 ;（分号） 键进行 Lift（删除但保留空隙），或按 '（撇号） 键进行 Extract（波纹删除，移除空隙），把那段内容从序列中去掉。

另一种选择是：在项目面板中双击原始片段，选中你想保留的词，然后把它们 Insert（逗号） 或 Overwrite（句号） 到一个序列中。

当序列搭建好后，你也可以继续使用 Text 面板。停顿会用 […] 标示出来，如果你愿意，也可以对它们进行波纹删除。用文本来剪辑是一种很强的工作方式；而且因为它允许你的客户告诉你要删掉哪些词，而不是给你发时间码，所以修订会容易得多。你也可以按片段中说过的词来搜索片段，但无法一次性跨所有片段进行搜索。如果你需要这种功能，把所有片段都加到同一条时间线里，然后在那里面搜索。

最后，你的时间线由片段组成的那部分转写，可以通过切换到 Captions 标签页并点击 Create captions from transcript（从转写创建字幕）按钮，直接转换成字幕。字幕会被添加到时间线顶部的一条新 Subtitle 轨道中。然后在工作区菜单中切换到 Captions and Graphics（字幕与图形）工作区。

如果你想把字幕“烧录”进视频里（只建议在你的发布平台不支持外挂字幕时这样做），就选中所有字幕，并在右侧的 Properties 面板中修改它们的外观。不过，如果平台支持闭合字幕（closed captions），最好使用闭合字幕而不是烧录字幕，因为很多人不想看到字幕，而另一些人则需要自己控制字幕的外观。

如果只是导出闭合字幕，请选中 Timeline 面板，然后选择 File > Export Captions，导出一个 SRT 文件，并与最终视频文件一起上传。最后，点击字幕轨道旁的“眼睛”图标，这样字幕就不会被包含在最终输出的视频中。

完整的基于文本的剪辑工作流：DaVinci Resolve

在 DaVinci Resolve 里，你会在同一个右键菜单中找到所有 AI 相关功能。在 Media Pool 中选中一个或多个片段，然后选择 AI Tools > Audio Transcription > Transcribe。

图 3.5——Resolve 的 AI 转写效果很好，但你需要手动触发

完成后，会弹出一个包含转写内容的新窗口——虽然你的体验可能有所不同，但我发现 Resolve 通常比 Premiere Pro 更准确：

图 3.6——这份未编辑的转写包含诸如 “Spork Tank Games” 这样的名字，拼写与大小写都正确

要用这个文本窗口把片段的一部分加入时间线，选中你想包含的文本，然后使用窗口右下角的按钮：Place on Top、Insert 或 Append。

当你把片段添加到时间线后，你可以通过切换窗口左上角的开关继续用文本进行剪辑。第二个图标会显示已添加到时间线片段中的转写分段，你可以先用它来建立选择范围，然后再使用诸如 Ripple Delete（波纹删除）之类的命令。

图 3.7——切换左上角开关后，用这个窗口选择特定时刻

如果你发现时间线里并不是所有片段都有转写数据，可以用右上角的省略号（…）菜单为它们添加转写，也可以在这里导出字幕：

图 3.8——缺失的片段可以在这里转写

在线基于文本的剪辑工作流

虽然我更推荐用桌面系统做视频剪辑，以免上传源素材的麻烦，但在线系统对不做剪辑的协作者来说更容易使用。像 Riverside（riverside.fm）这样的系统允许你上传片段、自动转写，然后通过删除不需要的文字来完成剪辑。它能用，但远不如在本地 NLE 上做同样步骤高效。

图 3.9——Riverside 够用，而且转写很清晰

对于“转写并剪辑少量特定片段”，而不是处理很多很长的片段，我能理解在线平台的好处。不过，这类系统真正的力量在于自动化剪辑工作流——我们后面还会回到这一点。

自动化的音频驱动剪辑工作流

如果你的重点是自动化的基于文本剪辑工作流，我会在本书后面的第 11 章再展开。AI 工具的不同用法之间经常会有交叉，但由于这类工具往往会替你完成一部分剪辑工作，它主要属于自动化。同样地，如果你要把字幕翻译成另一种语言，或生成另一种语言的新音频，那就完全属于生成式 AI 的范畴；我们会在本书下一大部分里覆盖这些工作流。

尽管如此，转写并不是实用型 AI 在音频方面能玩的唯一把戏……

对白清理

如今，大多数主流 NLE 都已经包含了由机器学习驱动的降噪功能，用来增强人声。虽然这种功能在某种形式上已经存在了几十年，但在 AI 介入之前，它的效果并不好——结果往往听起来像“水下机器人”。

今天，在 Final Cut Pro（FCP）和 DaVinci Resolve 中，你会看到一个叫 voice isolation（人声隔离） 的功能：它能非常出色地移除一切非人声内容，几乎没有可察觉的伪影。尽管这两个应用的人声隔离实现并不完全相同，但非常接近，而且都能把录制对白从“还行”提升到“很棒”。

这两款应用也都包含自动电平功能：FCP 中是 Loudness，Resolve 中是 AI Dialogue Balance。这些功能会尝试把较小声的部分拉大、把较大声的部分压小，以获得更均衡的结果，但它们可能是比较“粗”的工具。不过，如果你能接受这种结果，Resolve 还能更进一步：在 Timeline > AI Tools > Audio Assistant 中，你可以一次性对所有轨道完成完整的平衡与混音。

虽然这些功能可以做得很好，但它们无法完全替代人类音频专业人士——后者可能会做出更细腻的判断。全自动方案总是有局限，但节省下来的时间是一种我们大多数人愿意接受的权衡。如果你有时间和预算，就请专业人士来做。

Premiere Pro 在 Essential Sound 里为被标记为 Dialogue 的片段提供了更“激进”的对白增强功能。到 Enhance Speech 部分，直接点击 Enhance 按钮，就能处理任何选中的片段。这个功能确实能提升对白质量，但它并不是简单地移除录音里“不像人声”的部分。相反，它更像是一种生成式功能，试图让录音听起来像是在专业录音棚里录出来的。为此，它会施加更重的处理——这既有优点，也有缺点。

如果源录音问题很严重——比如领夹麦擦到了化纤衬衫——Enhance 比人声隔离更可能给出好结果。但也很可能出现：非常微弱的语音被“放大”成响亮的胡言乱语，因为这个模型容易产生幻觉。

虽然我的大多数录音仅靠人声隔离就能非常干净，但当其他方法都失败时，Enhance 是一个很棒的“秘密武器”，能救场。如果 Enhance 也无能为力，你可能需要考虑专用插件。iZotope 的 RX 插件包含许多有用功能，RX11 还包含一个专门的 AI repair assistant（AI 修复助手） ，承诺一步修复所有常见问题。

如果你更偏好“亲手调”的方式，Logic Pro 是一次性买断的完整数字音频工作站；Adobe Audition 是 Creative Cloud 套件中提供的全面音频处理应用。有或没有 AI 的帮助，这些以音频为中心的工具都具备用于抢救糟糕录音的能力。

人声录音处理妥当后，就该看音乐了。有时你需要改变它的长度……

音频重混（Audio remix）

Premiere Pro 和 DaVinci Resolve 都提供了工具，可以巧妙地改变一段音乐的时长。它们不是把音乐直接拉伸或改变节奏，而是识别音乐中可重复的部分或相似段落，然后通过重复这些段落来延长音乐，或剪掉它们来缩短音乐。无论你需要音乐变成多长，这些算法很可能都能做得很好，并且肯定比人类快得多。

在 Premiere Pro 中，选择 Audio Remix 工具——它是工具栏中第三组（stack）里的最后一个工具。启用后，只要把音乐轨道的右边缘向左拖就能变短，向右拖就能变长。即使最终片段比你拖拽到的位置多出或少了几秒，也别紧张：歌曲结构比“精准卡秒”更重要。

图 3.10——Premiere Pro 的 Audio Remix：展示了被延长的音乐轨道中被重复的片段

此时，片段上的锯齿线会标示哪些部分被重复或被剪掉。播放这些区域，确认你对结果满意。好消息是：在 Premiere Pro 里，这个功能不会消耗任何 AI 生成点数（generative credits）。

在 DaVinci Resolve 中，在 Edit 页面里，到检查器（inspector）的 Audio 标签页选择 AI Music Editor。（注意：这个功能在 Cut 和 Fairlight 页面也可用。）如果你知道想要的时长，可以直接编辑时间码并点击 Adjust 按钮。1、2、3、4 这几个按钮提供不同的重混方案，你可以来回切换选一个最喜欢的。或者，如果你更喜欢交互式操作，勾选 Live Trim，然后把音频轨道的右边缘拖到目标长度。这个功能在 Resolve 的免费版和付费版中都可用，所以如果你用的是 FCP 或其他没有类似功能的 NLE，Resolve 在这里就是你的好帮手。

Resolve 还在 Fairlight 页面提供了其他基于 AI 的音频工具。右键点击一个片段，选择 AI tools，你会看到 Dialogue Matcher 和 Voice Convert。Voice Convert 更偏生成式，所以我们会在本书后面再讲；但 Dialogue Matcher 更容易被归类为实用型工具——它的目的就是让一个片段听起来更像另一个片段，不过并不总能完全做到一致。

先选中一个源片段，右键选择 AI Tools > Dialogue Matcher > Capture Dialogue Profile。然后选中你希望听起来更像源片段的目标片段，右键选择 AI Tools > Dialogue Matcher > Apply Dialogue Profile。如果你需要这个功能，FCP 也有一个类似工具叫 Match Audio，在 Viewer 下方的 Enhancements 菜单（魔法棒图标）里。选中目标片段，选择 Match Audio，然后点击你想复制的源片段，再点 Apply。

对白清理并匹配好之后，我们来看看如何把成品音乐轨道中的人声（或任何其他组成部分）移除出来。

选择音乐分轨（Selecting musical stems）

如果你要对音乐进行更复杂的再加工，你可能希望把一首歌的各个组成部分拆出来，自己进行重混。有时你只是想把人声从其他部分里分离出来；有时你想拿掉节奏组。根据你的需求，你可以选择在 DaVinci Resolve、Logic Pro 或其他工具里完成这件事。

最简单的方案是在 Resolve 里。在 Fairlight 标签页中选中一条音轨，然后在检查器里启用 AI Music Remixer。你可以用这里的滑块直接静音或控制 Voice、Drums、Bass、Guitar、Other 等部分的音量；如果你更喜欢，也可以在一个独立的浮动窗口里使用同样的选项：

图 3.11——Resolve 的 AI Music Remixer 很快，但结果并不完美

总体而言，这个工具确实给混音带来了一些灵活度，但分离并不完美。想获得更好的结果，可以去 Logic Pro：导入音轨后，选择 Function > Stem Splitter。在下一页保持所有选项勾选，然后等待片刻即可得到结果。在我对自己音轨的测试中，Logic Pro 的输出明显比 Resolve 的实时效果干净得多。而且，把每个 stem 作为独立单元输出，也让后续重混更方便。

图 3.12——Logic Pro 的 Stem Splitter 能非常出色地把各组成部分分离到独立轨道

不过，这些成熟的桌面应用并不是当下唯一选择。如果你没有 Logic Pro，上网搜一下会发现很多不同方案，通常都在使用同一个 Demucs 算法。Ultimate Vocal Remover 5（ultimatevocalremover.com）是免费的；此外还有几种值得尝试的替代方案：Moises（moises.ai）、LANDR Stems（landr.com）、lalal.ai（lalal.ai）以及 AudioPod.AI（audiopod.ai）。其中一些服务还提供其他音频处理工具（比如降噪或说话人分离），如果它们对你效果很好，也可以考虑把它们纳入工作流。

Stem splitter 还可以作为一种“取证”工具，用来判断一段音乐是否真实。因为生成式 AI 音乐通常是在压缩过的音乐轨道上训练出来的，AI 生成的音乐往往包含可听见的伪影，并且无法被干净地分离为各个组成部分。如果 Logic Pro 的 Stem Splitter 得不到好结果，你要拆分的那条轨道可能被严重压缩过，或者它可能就是由生成式 AI 制作的。

无论你是否把音乐拆开，AI 也能帮你找到它的节奏。

识别音乐节拍（Identifying music beats）

我们用一个简单的内容来收尾。虽然通常并不建议把视频里的剪辑点总是严格对齐到音乐的每一个节拍上，但在关键时刻，这样做可以带来有用的强调效果。手动添加标记并不难，但你也可以借助 AI 自动识别节拍。在 Resolve 里，在 Cut 或 Edit 页面右键点击一条音频轨道，然后选择 Show Music Beats。

图 3.13——Show Music Beats 初始化需要几秒钟，随后处理速度非常快

此时，片段上的线条会显示出一些可能更有冲击力、适合放置剪辑点的位置。

在 FCP 里实现同样的技巧，可以看看 Ulti.Media 的 BeatMark 2（ulti.media/beatmark-2/）。你可以在这个第三方应用中处理片段，然后把带有标记的 FCPXML 导回 FCP。

小结

实用型 AI 的确非常有用。它并不完美，但也远胜于没有。旧的音频算法也能把事情做完，但加入一点机器学习之后，提升就很大。当然，如果你是专家，你能看出它们工作的瑕疵；但也正因为你是专家，它们只是更好结果的起点。和往常一样：如果结果已经“够用”，你可以直接使用；但如果你也想在这项任务上变得更强，就去调整一些设置、更仔细地听，你也会在这个过程中把自己的能力练得更好。

在下一章，我们将看看实用型 AI 如何帮助你处理图像与视频制作任务。