2024/08/13 ,由马耳他大学研究团队发布基于 AB-1 语料库的分析,设计深度学习模型在识别说话人方面的应用。
在说话人识别(SID)领域,语音作为人类交互的基本输入。
说话人识别(SID)是从已知说话人的池子中音频样本确定说话人的身份。
SID 可以认为是 模式识别问题,依赖于特征提取 和特征分类 两个关键组件。
一、当前遇到困难
SID 在特征提取 和 分类方面的挑战, 从语音数据中提取特征 和 对其进行分类以识别特定说话人的准确高效方法的需求。
地址: AB-1 Corpus|说话人识别数据集|语音分析数据集
特征提取
特征提取是语音分析中的关键步骤:
Mel频谱图 和 梅尔频率倒谱系统( MFCC ) 是该研究领域广泛使用的两种技术。
1、Mel谱图可视化音频源随时间变化的频率内容,通过将频率转换为梅尔标度,强调人类听觉感知。
2、梅尔频率倒谱系数(MFCC)作为另一种说话人识别的特征提取方法。MFCC通过捕捉音频信号的谱特征来提取紧凑的表示。
评估六种模型架构
模型1和模型5在测试准确率、精确度、召回率和F-score方面优于其他所有模型。
使用梅尔频谱图特征提取器的模型优于使用MFCC特征提取器的模型。
测试准确率、精确度、召回率和F-score指标范围在0.8到0.97之间,表明性能具有显著程度。
二、展望基于AB-1 Corpus说话人识别的应用
比如,在企业客服中心,我是一个大公司的客服经理,每天都要处理成千上万的客户电话。
我想要提高客户的体验,让客户感觉更贴心、更安全。
通过说话人识别技术,当客户打来电话,系统能立刻识别出这是哪位客户,甚至还能听出客户的情绪和语气。 只需要当用户第一次来电时,系统会请他们确认一些信息,同时会记录下他们的声音特征,比如音色、语速、说话习惯等。
客户说:我想查询一下我的订单状态。系统立刻回应:您好,张女士,根据您的声音,我们已经识别出您的身份。您的订单正在处理中,预计明天送达。
说话人识别技术在企业客服中心的应用,不仅提升了服务的安全性和效率,还让客户体验更加温馨和个性化。
听出客户的声音,听懂客户的需求。