多领域 ASR 英语语料库、GigaSpeech 基本介绍、附有效下载教程

746 阅读4分钟

「这是我参与2022首次更文挑战的第14天,活动详情查看:2022首次更文挑战

  • 🎉 声明: 作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️
  • 1-0

    ❤️专栏:AI 领域数据资源整理❤️ 之【有效拒绝假数据】


    👋 Follow me 👋,一起 Get 更多有趣 AI、冲冲冲 🚀 🚀


    📔 基础信息


    0-论文

    本文介绍了 GigaSpeech,这是一个不断发展的多领域英语语音识别语料库,具有 10,000 小时适合监督训练的高质量标记音频,以及 40,000 小时适合半监督和无监督训练的总音频。大约 40,000 小时的转录音频首先从有声读物、播客和 YouTube 中收集,涵盖阅读和自发说话风格,以及各种主题,如艺术、科学、体育等。提出了一种新的强制对齐和分割管道创建适合语音识别训练的句段,并过滤掉转录质量低的句段。对于系统训练,GigaSpeech 提供了五个不同大小的子集,10h、250h、1000h、2500h 和 10000h。对于我们的 10,000 小时 XL 训练子集,我们将过滤/验证阶段的单词错误率上限为 4%,而对于所有其他较小的训练子集,我们将其上限为 0%。另一方面,DEV 和 TEST 评估集由专业的人工转录员重新处理,以确保高转录质量。为流行的语音识别工具包提供了基线系统,即 Athena、ESPnet、Kaldi 和 Pika。


    📕 数据集介绍


    备注:该部分内容属于截图整理


    声明:本部分数据集介绍摘自——清华语音与音频技术实验室

    0-1 0-2 0-3 0-4 0-5 0-6

    声明:本部分数据集介绍摘自——清华语音与音频技术实验室


    致敬各位大佬

    0-7


    📘 下载正确打开方式


    🟧 下载主页 申请入口如下

    1-0

    🟨 填写必要信息

    1-1

    🟦 提交成功界面如下

    如果填写有误,还可重新编辑

    1-2

    🟧 很快邮箱收到下载方式说明

    查阅你的邮箱,会得到类似这样的回复

    Dear moli,
    
    Thank you for agreeing to GigaSpeech's terms of access. A copy of your agreement has also been attached at the end of this email. To download GigaSpeech:
    
     1. Clone the GigaSpeech repo
     
      Run: git clone https://github.com/SpeechColab/GigaSpeech.git
    
     2. Create password file under GigaSpeech/SAFEBOX
    
      这里会有一个加密解密的命令需要运行
    
     3. Download Gigaspeech
     
      3.1 Make sure you have at least 1.2T of free space under the destination directory
      3.2 Run: bash utils/download_gigaspeech.sh YOUR_DESTINATION_DIRECTORY
    
    Regards,
    The SpeechColab Team
    

    1.2T 空间,先去清理下磁盘吧

    3-0


    📙 致敬大佬


    感谢诸位为全人类的人工智能事业添砖加瓦

    3-5

    更多语音数据集博文总结如下


    🚀🚀目前掘金平台已经创作的经典博文如下🚀🚀


    计算机视觉领域、经典博文

    AI 学习、深度学习环境搭建 : 一文读懂


    🚀🚀 墨理学AI


  • 🎉 作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️
  • ❤️ 如果文章对你有帮助、点赞、评论鼓励博主的每一分认真创作
  • 765_blue.jpg