创建对齐声音和文本的数据集:Multimodal Corpus of Shakespeare and Milton

90 阅读3分钟

2024/7/26 由哥本哈根大学语言技术中心提供的 对齐声音和文本:莎士比亚和弥尔顿的多模态语料库。

这是一个包含威廉·莎士比亚和约翰·弥尔顿诗歌的语料库,这些诗歌已经通过公共领域的朗读进行了丰富。数据集已将诗歌的所有诗行与其相应的音频片段对齐。分别按诗行、单词、音节和音素进行对齐,还包含了对诗歌韵律分析。以理解诗歌的文字与音频之间相互作用。

数据集地址:Multimodal Corpus of Shakespeare and Milton

一、先看看数据集:

数据集包含了威廉·莎士比亚和约翰·弥尔顿的诗歌文本和相应朗读的音频。包含12.5小时的朗读内容,总共有10万个词(token),约17000个不同的词型(type)。

研究方法:

1、 使用动态时间规整 (DTW) 算法进行文本和音频对齐

该方法在行级别对诗歌的文本和音频进行对齐,从而全面探索诗歌的预期朗读和听觉方式。

备注: Aeneas就是利用DTW算法实现文本和音频的自动同步, 用来生成具有自然节奏和语调的朗读音频。

2、使用 CMU 字典或 G2P 模型进行字母到音素的转换:

该方法将单词的字母 (音素) 转换为音素 (声音),以促进音节划分和音素级对齐。

3、基于音素表示的音节划分:

该方法根据单词的音素表示将单词划分为音节,从而能够分析诗歌的音节结构。

备注:使用基于规则的方法进行音节化是一种自然语言处理技术。该方法基于Hulden (2006)的工作,并使用Foma软件实现。

4、单词/音节/音素级对齐:该方法对诗歌中的单词、音节和音素进行对齐,从而深入了解文本中存在的节奏和语音元素。

5、文本的自动扫描:该方法自动扫描诗歌文本,识别并标记每行的重音,从而洞察诗歌的节奏模式和韵律。

使用基于BiLSTM+CRF的预训练模型进行韵律分析

二、未来场景的应用:

智能体是AI的未来?

从智能体的角度:

1、情感表达:

通过分析诗歌中的重音、停顿和语调变化,AI可以更好地理解和模仿情感表达,使视频人物的发音更具表现力。

2、准确的语音同步:

文本与音频的精确对齐可以用于训练AI进行准确的唇形同步和语音同步,提高视频的真实感。

3、语音合成:

高质量的音频数据可以用于训练文本到语音(TTS)系统,生成更加自然和准确的语音输出。

开源数据集网站,请打开:遇见数据集

www.selectdataset.com/