声纹识别模型- ECAPA从0到1 -1

293 阅读1分钟

被逼无奈,为了论文,入坑ECAPA,目前大脑一片空白,仅做学习笔记之用。首先,该模型demo运行之前先对一些基本知识做个记录

一. 小趴菜的扫盲:

1.pip是什么

通用的 Python 包管理工具。提供了对Python 包的查找、下载、安装、卸载的功能。类似于npm

2.conda是什么

是个管理工具,可以当作Python的包管理工具,但相比于pip功能更强大,“Conda是适用于任何语言的软件包、依赖项和环境管理系统 --包括Python,R,Ruby,Lua,Scala,Java,JavaScript,C / C ++,FORTRAN等。

可以这样表示:conda ≈ pip(python包管理) + virtualenv(虚拟环境) + 非python依赖包管理。

3.PyTorch是什么

PyTorch是一个开源Python机器学习库,基于Torch,用于自然语言处理等应用程序。它是一个基于Python的可续计算包,提供两个高级功能:1、具有强大的GPU加速的张量计算(如NumPy)。2、包含自动求导系统的深度神经网络

记录安装参考:juejin.cn/post/715295…

4. ECAPA-TDNN

全称:Emphasized Channel Attention, Propagation and Aggregation in time delay neural network Based Speaker Verification,目前主流的声纹识别模型

二. 主要步骤

本次主要目的是利用ECAPA-TDNN 模型去训练一套自己的鸟类声音识别的模型,然后可以通过一个新的鸟叫音频,识别出该鸟的种类。 主要分为以下几步:

  • 1) 特征提取
  • 2) 声音降噪
  • 3) 声纹网络
  • 4) 损失函数
  • 5) 测试
  • 6) 声纹指标
  • 7) 获取评分