视频配音的原理及实践视频配音是用新的音轨替换原始音频的过程，通常用于翻译目的。机器学习已经开始构建用于自动配音的多模态系

1. 概述

视频配音是用新的音轨替换原始音频的过程，通常用于翻译目的。机器学习已经开始构建用于自动配音的多模态系统。

人工配音涉及一系列人工参与者，每个参与者负责流程的不同方面。第一步是对话翻译员对原始脚本进行近似逐字翻译。接下来，对话改编员将把翻译修改为符合配音要求（如等时性、口型同步、动作同步等）的可信脚本。最后，翻译和修改后的脚本将交给制作团队。据观察，配音演员在配音导演或主管的指导下，通常可以自由即兴发挥或在录制对话时对其进行细微更改。

人类配音是“受限的翻译”。毕竟，配音不仅仅是对原始内容的翻译文本产品。作为翻译，它应该保留原文的含义；作为口语，它应该听起来自然；作为视频音轨的伴奏，它应该与演员的口部动作、肢体语言和故事情节的节奏相吻合。同时满足所有这些约束条件非常困难，一般来说可能是不可能的。因此，我们感兴趣的是人类配音者如何平衡语义保真度、自然语音、时间限制和令人信服的口型同步等相互竞争的利益。每个因素都可以相互权衡，对观众对最终产品的体验产生不同的影响。

这个广泛的问题可以分解为几个关于人工配音过程的更具体的问题：

等时性

配音员是否尊重视频和原始音频所施加的时间限制？

等距

原始文本和配音文本的字符数是否大致相同？

语音节奏

配音演员为了满足时间限制，其语速会改变多少，从而可能损害语音的自然度？

口型同步

配音演员的台词与原演员的可见嘴部动作有多接近？

翻译质量

配音人员会在多大程度上降低翻译的准确性（即充分性和流畅性）以满足其他限制？

源语言

影响源语言特征是否会以不通过单词介导的方式影响目标语言，这表明存在语义转移？

2. 相关工作

2.1 人工配音

配音（人工配音和自动配音被视为一种受限翻译，其限制比漫画、歌曲或画外音视频内容等设置更多。大多数限制源于需要与原始视频音轨紧密匹配。

具体而言，配音具有等时约束：配音的持续时间应与源大致相同，并且应尊重说话者轮流中可察觉的停顿。同样，配音也受益于遵守语音同步也称为唇形同步：制作配音所需的发音嘴部动作与原演员的嘴部动作（如果可见）之间的兼容性。

配音还需要考虑动作同步：配音对话在原演员可见肢体动作下的可信度。

这三个约束现代用法中是真正的“同步”，因为它们与时间相关。动作同步也是符号或图像约束的更广泛类别的一个例子，或“电影语言固有”的约束：配音语言和电影视觉信息之间需要连贯一致

当然，配音也有非时间上的限制。作为文化产品，它们应该让目标语言和文化社区的成员能够轻松理解，避免使用或使用外语来达到效果。作为语音，它们听起来应该很自然，就像最初用目标语言录制的一样。

谈到内容，配音与任何翻译都具有相同的目标，即保留源的语义。但是，允许有一些灵活性。两个例子：

(1) 在西班牙语到英语的配音中，画外煎蛋卷可能会变成馅饼，因为馅饼这个词更符合口型同步的限制。

(2) 在日英配音中，为了遵守社会文化限制，不可见的筷子可能会被改为叉子。

从这个角度来看，配音是一种非直译形式，称为“创译”。然而，为了保持对原片的忠实度，通常希望将此类更改保持在最低限度。

最后，其他定性研究考察了配音的社会性和文本性。学者们研究了权力、意识形态、身份和类似考虑因素在配音制作中的作用

2.2自动配音

一些研究已经探索了配音的自动生成，重点关注各种各样的限制。一项研究重点是将口型同步约束集成到配音生成过程中。有采用了不同的方法，探索调整原始视频中的嘴部动作以匹配配音音轨。

其他研究了“等距”机器翻译：生成用于自动配音的翻译，其长度（以字符为单位）与输入相似。有人认为，这一属性是“口语实现持续时间的代理，字符长度的相似性使文本转语音 (TTS) 生成的语音听起来更自然。

第三项工作重点是控制自动配音系统中的语速，以实现韵律对齐，或“同步翻译记录与原始话语的匹配”。如仅关注源目标短语之间的语言内容匹配，以此作为改进TTS 的方法，而或关注流畅度。抑或TTS 语速变化和语言内容匹配的特征进一步增强了韵律对齐。

此外，还可引入了时间边界放松机制，有助于控制语速和语音流畅度。例如将停顿约束直接集成到机器翻译中。

最后，与大多数自动配音作品中使用的流水线架构不同，还有研究探索了端到端配音。

2.3 实证研究

近年来，一些研究试图通过定量视角研究人类配音，为理论辩论提供经验信息。其中一项研究，如对人类配音的韵律进行的详细研究，通常采用特定语言的方式。其他近期研究采用实验室眼动追踪研究来衡量观众反应。特别是发现，观众对口型同步的敏感度可能不如传统认为的那样。他们报告了“配音效应”的存在，即观众在配音时会下意识地避免看屏幕上演员的嘴部动作配音演讲无法与口型同步。

在机器学习文献中，最新研究得出结论，屏幕上的人工配音的翻译质量（即翻译充分性和/或流畅性）明显低于屏幕外的人工配音，质量下降的原因是需要满足不适用于或不太适用于屏幕外配音的约束（例如等时性）。

3. 实现分析

3.1 等时性

配音最明显的限制可能是等时性：配音语音应与原语音保持一致。当角色的嘴巴可见（“屏幕上”）时，此限制尤其具有约束力，但即使不可见（“屏幕外”），也可能出于其他原因适用：例如视频中的剪切或过渡、屏幕上的语音以及与演员的身体动作保持一致的需要。许多定性研究都考虑了等时约束，而自动配音研究则探索了如何整合这些约束，通常使用等时代理，例如音节长度或字符长度。

虽然人类配音语音大多与源语音同时出现，但人类配音者也经常违反等时约束。屏幕上的配音比屏幕外的配音更具等时性，但程度却出奇地小。屏幕外对话台词的平均重叠率为 0.662，而屏幕上的重叠率为 0.684。

3 .2等距

过去的研究研究了文本长度相似性（以字符为单位）作为约束自动配音翻译的一种方式，尤其是要求目标翻译在源字符长度的 ±10% 以内。这种做法称为“等距机器翻译”，我们将长度约束称为“等距”。这些主要将等距用作持续时间相似性和等时性的代理，尽管它也可能有助于避免 TTS 输出率的大幅变化。人工配音都在很大程度上是非等距的，在不到 69% 的情况下，差异不超过 10%。然而，长度差异的分布不同。

3 .3 语速

先前的文献对人类配音的自然性给予了相当大的关注。一个常见的（尽管并非普遍的）结论是，配音听起来“不自然且做作”，原因包括奇怪的语调和受源语言启发的“英语化”。

从另一个角度来看，等距机器翻译文献认为，TTS 模型在改变语速方面不如人类灵活，可能需要等距输入才能产生听起来自然的等时输出。

也许有悖常理，但看起来持续时间比与内容的相对长度的关系比与配音语速的关系更为密切。简单的线性回归分析发现，字长比和持续时间之间的相关性为 0.523，而人类配音的语速与时长比率（r2 = 0.027）的相关性仅为 0.163。

如果配音演员改变语速以满足时间限制，预计配音语音的变化性会比源语音更大。然而，没有观察到这一点：当被迫选择其中之一时，人类配音者似乎更愿意打破时间限制而不是改变语速。

3.4唇形同步

定性工作分别考虑了人工配音和自动配音中的“唇形同步”约束。这个想法是，配音音频应该与原始演员的（可见）嘴部动作相匹配。做不到这一点可能会让观众感到不舒服并降低配音质量。

然而，最近的一些实证研究发现，这种约束可能不像以前假设的那样具有约束力。即使在屏幕上的语音中，也只有大约 12.4% 的语音时间在源端和目标端具有相同的视素。这表明人类配音者有时会对其输出进行口型同步，但这是一个相当宽松的限制。当然，这个结果很可能是人类配音者遵守口型同步约束的下限。

3.5 翻译质量

人工配音过程非常复杂，整个过程中翻译都会经过修改以满足同步、口型同步和其他限制。因此，一个显而易见的问题是最终翻译对源材料的忠实程度降低翻译质量毕竟可能会使满足其他约束变得更容易：例如，改变目标语言的含义可能比更正确的翻译更适合原始英语口型动作。人类配音者似乎不会为了满足其他限制而牺牲翻译质量。

3 .6 非文本传输

最后，我们探讨了人工配音音频是否以不受配音翻译文本影响的方式依赖于源音频。我们首先看看来源对三个方面的影响：配音演员（目标语言）音频的方面：语速、音调和能量。

对于音调和能量，我们计算每条对话线的平均值和标准偏差，依靠更高的标准偏差，从而更大的音调和能量范围作为情绪的粗略指标。总体而言，我们发现源音频属性可以解释目标方差的很大一部分。源语速与目标语速相关（r = 0.439， r2 = 0.193），对话行越长，相关性越强。

人类配音者在非常精细（和语义）的层面上模仿源音频的属性。这些结果可以解释为情感和/或重点从源转移到目标的证据。

4. 开源实现

目前的主要开源实现有 pyvideotrans (github.com/jianchang51…), 支持众多自定义功能 syndub (github.com/synthere/sy…), 支持自适应的对齐，包括文字调整和速度的调节，其使用的bungee音速调整能调节快慢，产生更好质量的音频数据等。

5. 总结

总结人工配音过程的分析指出了自动配音中应该（也许不应该）追求的几个方向。

1）翻译质量和语音自然度似乎至关重要。配音过程的输入主要是对话，其中存在自动翻译系统面临的难题，例如说话者性别不明确、收件人性别和数字不明确以及人物之间的礼节。说话者性别和数字问题尤其关键，因为观众通常既能听到说话者，又能看到收件人。

2）我们注意到，与新闻等常见领域的文献相比，对话自动翻译方面的文献严重匮乏。同样，在正常情况下，TTS 系统的自然性已经足够具有挑战性，但电视节目中经常包括大喊大叫、哭泣、窃窃私语等，这让问题变得更加困难。虽然研究在这个领域确实存在，我们怀疑还有很大的改进空间。

3）我们发现，有强有力的证据表明，源音频属性在多个层面上被非文本地转移到了人工配音中：说话者特征、对话行级效果，以及在考虑单词级语义对齐时的情感/强调转移。这指出了绝大多数自动配音文献所采用的管道方法的一个明显问题：如果没有一种机制来编码情感/强调、个人声音配置文件和源语音的其他特征，我们预计它们几乎不可能在合成目标语音中复制。

4）我们在人工配音中观察到的高等时率支持了继续研究等时机器翻译的必要性，特别是考虑到观察到人工配音者不愿意改变他们的语速，这表明自动配音系统不应该简单地改变语速来实现等时约束。然而，我们的研究结果并不支持使用等距机器翻译。我们的工作驳斥了等距是等时性的良好代理的说法，也使人们怀疑等时性对于 TTS 比对于人工配音者更必要的说法，因为 TTS 改变语速的能力较弱（即，我们发现人工配音者不会改变语速以满足等时约束，因此自动配音系统可能也不会）。作者怀疑直接优化等时性（而不是等距）可能是自动配音的更好方法。

5）最后，我们观察到的人工配音中口型同步率较低（以及画面内和画面外口型同步率之间的差异非常小，但仍然具有统计学意义），这表明对自动口型同步的研究对自动配音来说最多只能起到一点作用。

此外分析表明，等距性不能很好地代表人类配音中的等时性，但一些先前的研究已经表明等距机器翻译有利于自动配音。