Dialogue Boost:亚马逊如何利用AI技术增强影视对话
一项全新的音频处理技术正为数百万观众带来更便捷的娱乐体验。
作者:Yuzhou Liu, Trausti Kristjansson 2025年12月10日 · 5分钟阅读
在亚马逊,我们很高兴推出由人工智能驱动的全新Dialogue Boost技术,该技术现已应用于部分Echo智能音箱和Fire TV设备。Dialogue Boost能够增强电影和电视节目中对话的清晰度,同时自适应地抑制背景音乐和音效。借助机器学习和先进的音频分离技术,Dialogue Boost帮助用户在欣赏喜爱的电视节目、电影和播客时听清对话,而无需将音量调至过高。这项技术可以改善所有客户的观看体验,尤其对全球近20%存在听力障碍的人群来说更为实用。

最初于2022年在Prime Video上推出的Dialogue Boost,如今利用深度神经网络压缩技术的突破,可直接在设备端运行,使其适用于所有媒体内容,包括Netflix、YouTube和Disney+。
为观影之夜带来更清晰的对话
对于有听力障碍的人来说,提高电影或电视节目的整体音量并不能让对话变得更清晰,因为音乐和其他背景音也会被同时放大。大多数人通过使用隐藏式字幕来解决这个问题,但这并非所有观众偏好的观看方式。
过去十年间,电影中对话难以听清的问题日益严重。这部分是由于现代影院和家庭音响系统日益复杂和多样化,导致没有一个单一的混音能在所有播放配置上都表现良好。
例如,好莱坞的音效剪辑师可能针对拥有数十个声道的影院系统进行混音,包括来自影院前方的独立对白声道和从侧面发出的音效。然而,在电视版本中,音效、音乐和对话都被"缩混"到同一个声道,使得理解对话内容变得更加困难。
声源分离技术
我们意识到,为了改善客户体验,需要一种能够在增强对话的同时抑制音乐和音效的方法。通过一个分阶段处理音频的声源分离系统,我们实现了这一目标。
第一阶段是分析,将输入的音频流转换为时频表示,将不同频段的能量随时间的变化映射出来。
下一阶段涉及一个神经网络,该网络在数千小时的语音条件下进行训练,包括各种语言、口音、录制环境、音效组合和背景噪音。该模型实时分析时频表示,以区分语音和其他声音。

两项关键创新使团队能够将Dialogue Boost带到Fire TV Stick和Echo智能音箱上:一种更高效的分离架构,可在频率子带中处理音频;以及一种依赖于伪标记的训练方法,即模型在其自身标记的数据上进行微调。
子带处理
许多现有网络通过时间序列建模(类似于大语言模型中的令牌序列建模——一种计算密集型方法)将所有频率内容一起处理。
将音频频谱划分为频率子带,可以使推理过程并行化,每个子带只需沿时间轴进行处理,这是一个简单得多的计算任务。我们还实现了一个轻量级的桥接模块来合并子带,改善了跨频带的一致性。
这种架构使我们的模型能够达到或超越以往的先进性能,与更大的模型竞争,同时使用的运算量不到其1%,所需的模型参数约为其2%。
伪标记
在以往的研究中,训练在很大程度上依赖于语音、背景声和音效的合成混合。但这种合成数据并未涵盖所有真实场景,例如现场直播和音乐活动。
受近期训练多模态大语言模型(其中先进模型受益于伪标记流程)工作的启发,我们创建了一个系统,可为真实媒体内容生成训练目标,从而更好地处理这些罕见场景。首先,我们在合成数据上训练一个大型、强大的模型,并用它从真实数据中提取语音信号。然后,我们将带有伪标记的真实数据与合成数据结合,重新训练模型。
此过程持续进行,直到进一步的训练轮次不再提高模型的准确性。此时,在一个称为知识蒸馏的过程中,我们使用完全训练好的大型模型为一个小型且高效的模型生成训练目标,使其足以实时处理音频信号。
最后阶段是智能混音,它超越了简单的音量调整。该系统结合多种技术来增强对话,同时保留原始混音的艺术意图:识别语音主导的音频通道,应用源分离技术隔离对话,强调对语音清晰度至关重要的频带,并将这些元素与原始音频重新混合。观众可以调整对话的突出程度,同时系统保持整体音质和艺术平衡。
当亚马逊Prime Video首次推出Dialogue Boost时,它依赖于基于云的处理来预先增强音轨。知识蒸馏帮助我们将原始AI模型压缩到其大小的1%以下。现在,我们的模型能够在设备限制内实时运行,同时保持与基于云的技术几乎相同的性能。
听觉体验
我们的研究表明,在判别性听力测试中,超过86%的参与者更偏好经Dialogue Boost增强后的音频清晰度,尤其是在包含复杂音景的场景(如动作片段)中。
对于有听力障碍的用户,我们的研究显示功能认可度为100%,用户表示在观看电影时,听音的费力程度显著降低。
客户反馈,Dialogue Boost还帮助他们理解耳语般的对话、带有不同口音或方言的内容,以及动作戏密集时的对白,使他们能够不受字幕干扰地欣赏电影。此外,对于深夜观众或在他人睡觉时看电视的人来说,这项技术尤其有价值。观众无需不断调整音量或依赖字幕,即可保持舒适的聆听水平,同时确保对话清晰可懂。
致谢
Dialogue Boost是亚马逊Lab126和Prime Video团队合作的成果。我们要感谢Gordon Han, Berkant Tacer, Phil Hilmes, Peter Korn, Rui Wang, Ali Milani, Scott Isabelle, Vimal Bhat, Linda Liu, Mohamed Omar, Lakshmi Ziskin, Rohith Mysore和Vijaya Kumar。
| 研究领域 | 标签 | |
|---|---|---|
| 对话式AI | 信号处理 | FINISHED |