冰岛语的语言技术资源库构建
近日,某机构在西雅图总部接待了冰岛总统及一个由政府官员、商界领袖和学者组成的代表团。此次会面旨在探讨如何通过技术手段保护冰岛语在数字时代的活力。
总统此次访问是其更广泛使命的一部分,该使命旨在通过将冰岛语整合到各种形式的技术中,以在数字时代保护该语言。本文将重点介绍冰岛为加速其语言的数字化整合而率先开展的一些创新工作。
自2019年以来,冰岛政府一直资助一项为期五年的冰岛语语言技术计划。该计划产出了一系列与文本转语音、语音识别和自然语言处理相关的优秀成果,包括并行数据集、发音词典、文本正则化映射表、语音数据、树库、分词器、命名实体识别器和建模方案。这些工具对所有语言,尤其是那些训练机器学习模型数据量相对较少的语言,都具有重要应用价值。
该计划的策略是多方面的,目标涵盖从基础研究到面向客户的产品。其五个核心研究领域为:语言资源、语音识别、语音合成、机器翻译以及拼写和语法检查。
以下是一些精选的资源列表,希望这些资源能对相关研究工作有所助益:
- 计划概览与过往工作:提供对项目整体情况和历史成果的介绍。
- TTS并行文本-语音数据库 (Talrómur):
- Talrómur 1:包含220小时录音室质量的语音数据,来自4位女性和4位男性。每位捐赠者录制了10到30小时数据,足以构建具有其个人特色的语音模型。数据采用 CC 4.0 BY 许可。
- Talrómur 2:包含80小时录音室质量的语音数据,来自20位女性和20位男性。每位捐赠者录制了约两小时数据。虽然两小时不足以从零创建特定音色的声音,但可以将该数据集(以及Talrómur 1)中的声音结合,创造出独特的新语音。数据同样采用 CC 4.0 BY 许可。
- 冰岛语发音词典:一个经过人工验证的发音词典,包含近50,000个独特的词形,并转录了四种发音变体,通常包括清晰和不太正式的发音转录。该存储库包含项目遵循的转录规则和指南。词典采用 CC 4.0 BY 许可。
- TTS文本正则化语料库:包含40,000个句子,已针对TTS应用进行了人工正则化处理。该语料库旨在解决诸如将“$30”转换为“thirty dollars”这类文本归一化任务。
- TTS文本预处理流水线:一个连接了文本清洗、文本正则化、短语划分和字素到音素转换等独立模块的文本预处理流水线。该前端流水线及其所有子模块均采用 Apache 2.0 许可。
- 冰岛语TTS开源方案:
- 基于 Festival 引擎的传统单元选择方案,采用 Apache 2.0 许可。
- 基于 FastSpeech 实现的神经TTS方案,采用 Apache 2.0 许可。
- 同时提供了Talrómur 1的基线模型、训练/测试集划分和语音对齐数据。
- ASR并行文本-语音数据库 (Samrómur):基于 Mozilla Common Voice 项目的众包平台,包含超过 2,300小时 的朗读数据。还有相关的并发验证工作成果可供查阅。另有一个约 152小时 的成人语音数据集可用。
- 议会语音数据:包含来自冰岛议会 542小时 的清晰且经过验证的演讲数据。
- 其他语音数据库:
- 193小时电视和广播语音数据
- 21小时对话转录数据
- 51小时大学讲座转录数据
- 20小时朗读查询数据
- 131小时儿童语音数据
- ASR语言模型资源:提供冰岛语千词语料库。
- 其他ASR工具和方案:
- 冰岛语自动标点工具
- 基于Samrómur数据集的Kaldi开源方案
此外,某机构在语言扩展和低资源自然语言处理方面也开展了一些工作。例如,近期发布了 MASSIVE 数据集、竞赛和研讨会,旨在推动包括冰岛语在内的51种语言的多语言自然语言理解技术发展。其翻译服务已扩展到75种语言,语音服务支持33种语言,其中均包含冰岛语。在核心科学研究领域,也进行了包括跨语言迁移学习、零样本迁移学习、多语言训练数据生成、对抗性广告检测、新语言文本正则化以及机器翻译持续改进等方向的研究。FINISHED