创建对齐声音和文本的数据集：Multimodal Corpus of Shakespeare and Milton

2024/7/26 由哥本哈根大学语言技术中心提供的对齐声音和文本：莎士比亚和弥尔顿的多模态语料库。

这是一个包含威廉·莎士比亚和约翰·弥尔顿诗歌的语料库，这些诗歌已经通过公共领域的朗读进行了丰富。数据集已将诗歌的所有诗行与其相应的音频片段对齐。分别按诗行、单词、音节和音素进行对齐，还包含了对诗歌韵律分析。以理解诗歌的文字与音频之间相互作用。

一、先看看数据集：

数据集包含了威廉·莎士比亚和约翰·弥尔顿的诗歌文本和相应朗读的音频。包含12.5小时的朗读内容，总共有10万个词(token），约17000个不同的词型(type)。

1、使用动态时间规整 (DTW) 算法进行文本和音频对齐

该方法在行级别对诗歌的文本和音频进行对齐，从而全面探索诗歌的预期朗读和听觉方式。

备注： Aeneas就是利用DTW算法实现文本和音频的自动同步，用来生成具有自然节奏和语调的朗读音频。

2、使用 CMU 字典或 G2P 模型进行字母到音素的转换：

该方法将单词的字母 (音素) 转换为音素 (声音)，以促进音节划分和音素级对齐。

3、基于音素表示的音节划分：

该方法根据单词的音素表示将单词划分为音节，从而能够分析诗歌的音节结构。

备注：使用基于规则的方法进行音节化是一种自然语言处理技术。该方法基于Hulden (2006)的工作，并使用Foma软件实现。

4、单词/音节/音素级对齐：该方法对诗歌中的单词、音节和音素进行对齐，从而深入了解文本中存在的节奏和语音元素。

5、文本的自动扫描：该方法自动扫描诗歌文本，识别并标记每行的重音，从而洞察诗歌的节奏模式和韵律。

使用基于BiLSTM+CRF的预训练模型进行韵律分析

智能体是AI的未来？

从智能体的角度：

1、情感表达：

通过分析诗歌中的重音、停顿和语调变化，AI可以更好地理解和模仿情感表达，使视频人物的发音更具表现力。

2、准确的语音同步：

文本与音频的精确对齐可以用于训练AI进行准确的唇形同步和语音同步，提高视频的真实感。

3、语音合成：

高质量的音频数据可以用于训练文本到语音（TTS）系统，生成更加自然和准确的语音输出。