Mozilla Common Voice 添加了 16 种新语言和 4,600 个新的演讲时间

391

Mozilla Common Voice计划发布了一个新的、扩大的数据集,其中包括16种新语言--如Basa和哈萨克语--以及4622个新的语音小时。

Mozilla Common Voice是一项开源计划,旨在使语音技术更具包容性。贡献者将语音数据捐赠给一个公共数据集,然后任何人都可以用它来训练语音技术。

Common Voice 社区经理 Hillary Juma说。"互联网世界越来越多地通过语音将大家联系起来:语音助手和智能音箱为我们指路、搜索信息、将我们与朋友联系起来,用于辅助技术等等。然而,这项技术对数百万人来说并不可用。例如,亚马逊的Alexa、苹果的Siri和谷歌Home都不支持单一的非洲本土语言"

Hillary Juma 继续说道。"我们可以帮助个人有能力分享他们的言论,确保所有的社区都能获得语音技术,搭建沟通的机会。"

最近几个月,Mozilla还宣布了三位Common Voice研究员340万美元的投资以推动在东非的工作,以及与英伟达的合作

最新的数字

  • 这一最新版本为通用语音数据集引入了16种新语言:巴萨语、斯洛伐克语、北库尔德语、保加利亚语、哈萨克语、巴什基尔语、加利西亚语、维吾尔语、亚美尼亚语、白俄罗斯语、乌尔都语、瓜拉尼语、塞尔维亚语、乌兹别克斯坦语、阿塞拜疆语、豪萨语。

  • 按总时数计算,排名前五位的语言是英语(2630小时)、基尼亚卢旺达语(2260小时)、德语(1040小时)、加泰罗尼亚语(920小时)和世界语(840小时)。

  • 按百分比增加最多的语言是泰语(增长近20倍,从12小时到250小时)、卢干达语(增长9倍,从8小时到80小时)、世界语(增长超过7倍,从100小时到840小时)和泰米尔语(增长超过8倍,从24小时到220小时)。

原文链接:foundation.mozilla.org/en/blog/moz…