冰岛总统代表团访问某中心对话式AI研究
近日在某中心西雅图总部,有幸接待了冰岛总统阁下及其代表团,成员包括冰岛政府官员、商界领袖和学者。此次会面令人倍感荣幸。
总统此次访问是该机构在数字时代通过技术整合保护冰岛语使命的一部分。本文将重点介绍冰岛在加速冰岛语数字化整合方面开展的创新工作。
自2019年起,冰岛政府资助了一项为期五年的冰岛语技术项目,已产生一系列与文本转语音、语音识别和自然语言处理相关的重要成果。这些成果包括平行数据集、发音词典、文本规范化映射、语音数据、树库、分词器、命名实体识别器和建模配方。这些工具对所有语言都具有重要应用价值,特别是那些训练机器学习模型数据相对较少的语言。
该项目采用多管齐下的策略,涵盖从基础研究到面向客户产品的各个领域。其五个核心研究方向包括:语言资源、语音识别、语音合成、机器翻译以及拼写和语法检查。
资源清单
以下是由冰岛代表团提供的一些实用资源:
语音合成资源
- 平行文本-语音数据库(Talrómur):Talrómur 1包含220小时录音,来自4位女性和4位男性;Talrómur 2包含80小时录音,来自20位女性和20位男性
- 冰岛语发音词典:包含近50,000个独特词形,采用四种发音变体转录
- 文本规范化语料库:包含40,000个句子,专为TTS手动规范化
- 文本预处理流水线:连接文本清理、文本规范化、分句和字素到音素转换的独立模块
- 冰岛语TTS配方:包括基于Festival的传统单元选择配方和基于FastSpeech的神经TTS配方
自动语音识别资源
- Samrómur众包平台:基于志愿者朗读提示,总计超过2,300小时数据
- 议会语音数据:542小时冰岛议会演讲录音
- 其他语音数据库:包括电视广播语音、对话录音、大学讲座等多种场景
语言建模工具
- 冰岛语十亿词库
- 冰岛语自动标点器
- 使用Samrómur的开源Kaldi配方
技术拓展进展
在语言扩展和低数据自然语言处理方面,某中心近期发布了MASSIVE数据集、竞赛和研讨会,旨在推动包括冰岛语在内的51种语言的自然语言理解技术发展。
某中心翻译服务已扩展至75种语言,语音合成服务支持33种语言,均包含冰岛语。语言扩展和支持是许多服务和产品持续努力的方向。
在核心科学研究方面,持续开展跨语言迁移学习、零样本迁移学习、多语言训练数据生成、对抗广告检测、TTS系统新语言文本规范化以及机器翻译持续改进等研究。
与冰岛总统代表团会晤期间,普遍持乐观态度——相信全球开发者都能利用人工智能的最新和即将到来的进展,加速冰岛语和其他语言与各类技术的整合。
继续建设。