Interspeech 2022: 跨学科研究的增长
语音合成与语音识别模型的循环训练,以及为了更好语音韵律而进行的语言理解,仅仅是语音相关领域交叉融合的几个例子。
会议:Interspeech 2022
当 Penny Karanasou 在 2010 年的 Interspeech 会议上发表她的第一篇论文时,她还是一名计算机科学专业的博士生,正在撰写关于自动语音识别的论文。六年后,她加入某机构,成为自然语言理解小组的成员。在过去的两年半里,她一直从事文本转语音方面的工作,最近担任高级应用科学家。因此,她对 Alexa 的三大核心技术都有丰富的实践经验。
Penny Karanasou 是 Alexa AI 组织的一位高级应用科学家。
她与 Interspeech 会议也有着深厚的渊源。今年的会议(将于下周开始)是她第二次担任项目委员会的领域主席,也是她第七次主持分会场。鉴于她在对话式 AI 领域经验的广度,最让她感兴趣的趋势之一可能是自动语音识别、自然语言理解和文本转语音之间日益增长的交叉重叠。
“近年来,随着新发展的神经技术,我们开始看到不同语音领域之间出现越来越多的重叠和协同效应,”Karanasou 说。“其中一个方面是,你可以实际使用 TTS 来服务 ASR,即使用 TTS 系统生成合成数据以进行数据增强。在英语中,我们可能需要针对特定领域、词汇表外单词或数据分布尾部且不常见的示例的数据。但这种方法也适用于低资源语言。”
“另一种结合 ASR 和 TTS 的方法是联合训练,它使用半监督学习来改进两个系统。从数据开始,然后以循环方式进行训练。训练一个系统,并使用其输出训练另一个系统。使用一些置信度指标或其他选择方法来挑选用于新训练的数据。进行这种循环训练实际上可以改进两个任务。”
“我们在最近几年观察到的另一件事是,两个领域出现了通用的方法。在 TTS 和 ASR 中,业界都在朝着全神经端到端系统发展。我们还看到为了长格式 ASR 和 TTS 而添加上下文。因此,不再只关注一个句子,而是考虑对话中之前所说的更多上下文——或任何类型的上下文。”
语言理解与语音
“我认为这也是 NLU 影响发挥作用的地方,”Karanasou 说。“有了所有这些语言模型——比如 BERT,这是最著名的——我们看到 NLU 被集成到语音领域。我们看到 BERT 被用于 TTS 和 ASR 论文中,为系统添加更多上下文以及句法和语义信息。例如,通过拥有正确的句法和语义信息,我们还可以在 TTS 中获得更好的韵律。”
正如 Karanasou 所解释的,像 BERT 这样的语言模型在 NLU 中的成功本身也是学科交叉融合的一个例子。语言模型对词序列的概率进行编码,一个词与其他词的共现被证明是其含义的良好指标。但在引入 NLU 之前,语言模型早已在 ASR 中用于区分同一声音序列的不同解释(一个典型的例子是“Pulitzer Prize”和“pullet surprise”)。
“我们有为 ASR 开发的语言模型,”Karanasou 说,“突然间,基于 Transformer 架构的 BERT(现在用于编码器、解码器和其他模块)出现了,并且它的效果要好得多。”
Interspeech 一直都有不少关于 ASR 和 TTS 的论文。毕竟,这两个任务互为镜像:文本到语音和语音到文本。但 Karanasou 指出,另一个表明对话式 AI 子领域之间日益重叠的迹象是,Interspeech 上关于以语音为输入并以端到端方式执行下游计算的模型的论文数量不断增加。这些研究包括口语语言理解(即 SLU,语音识别和 NLU 的结合)、口语翻译和口语对话。
“传统上,我们会在 NLP(自然语言处理)会议上看到这些关于口语语言理解的板块,”Karanasou 说。“但现在我们在 Interspeech 等会议上看到了更多 SLU 板块。”
“话虽如此,我们仍然必须记住,每个领域都有自己的挑战和目标。ASR 是与 TTS 相反的任务,但处理的数据和使用的评估技术不同。例如,TTS 主要基于主观评估,而 ASR 最小化词错误率,因此是客观评估。”
然而,对于 Karanasou 来说,对话式 AI 子领域之间的交叉融合只是跨学科研究优势的一个例子。
“我认为人们应该阅读其他领域的论文,”她说。“机器翻译当然是其中之一,它属于 NLU。但越来越多地,我们甚至从图像处理、计算机视觉中获得灵感。理解其他领域发生的事情并将其迁移到自己的领域,这确实非常丰富。”
研究领域: 对话式 AI
标签: Interspeech, 自动语音识别 (ASR), 文本转语音 (TTS), 自然语言理解 (NLU), 口语语言理解 (SLU)FINISHED