2024/7/26 由哥本哈根大学语言技术中心提供的 对齐声音和文本:莎士比亚和弥尔顿的多模态语料库。
这是一个包含威廉·莎士比亚和约翰·弥尔顿诗歌的语料库,这些诗歌已经通过公共领域的朗读进行了丰富。数据集已将诗歌的所有诗行与其相应的音频片段对齐。分别按诗行、单词、音节和音素进行对齐,还包含了对诗歌韵律分析。以理解诗歌的文字与音频之间相互作用。
数据集地址:Multimodal Corpus of Shakespeare and Milton
一、先看看数据集:
数据集包含了威廉·莎士比亚和约翰·弥尔顿的诗歌文本和相应朗读的音频。包含12.5小时的朗读内容,总共有10万个词(token),约17000个不同的词型(type)。
研究方法:
1、 使用动态时间规整 (DTW) 算法进行文本和音频对齐
该方法在行级别对诗歌的文本和音频进行对齐,从而全面探索诗歌的预期朗读和听觉方式。
备注: Aeneas就是利用DTW算法实现文本和音频的自动同步, 用来生成具有自然节奏和语调的朗读音频。
2、使用 CMU 字典或 G2P 模型进行字母到音素的转换:
该方法将单词的字母 (音素) 转换为音素 (声音),以促进音节划分和音素级对齐。
3、基于音素表示的音节划分:
该方法根据单词的音素表示将单词划分为音节,从而能够分析诗歌的音节结构。
备注:使用基于规则的方法进行音节化是一种自然语言处理技术。该方法基于Hulden (2006)的工作,并使用Foma软件实现。
4、单词/音节/音素级对齐:该方法对诗歌中的单词、音节和音素进行对齐,从而深入了解文本中存在的节奏和语音元素。
5、文本的自动扫描:该方法自动扫描诗歌文本,识别并标记每行的重音,从而洞察诗歌的节奏模式和韵律。
使用基于BiLSTM+CRF的预训练模型进行韵律分析
二、未来场景的应用:
智能体是AI的未来?
从智能体的角度:
1、情感表达:
通过分析诗歌中的重音、停顿和语调变化,AI可以更好地理解和模仿情感表达,使视频人物的发音更具表现力。
2、准确的语音同步:
文本与音频的精确对齐可以用于训练AI进行准确的唇形同步和语音同步,提高视频的真实感。
3、语音合成:
高质量的音频数据可以用于训练文本到语音(TTS)系统,生成更加自然和准确的语音输出。