声纹识别模型- ECAPA从0到1 -1

2022-10-12 293 阅读1分钟

被逼无奈，为了论文，入坑ECAPA，目前大脑一片空白，仅做学习笔记之用。首先，该模型demo运行之前先对一些基本知识做个记录

一. 小趴菜的扫盲：

1.pip是什么

通用的 Python 包管理工具。提供了对Python 包的查找、下载、安装、卸载的功能。类似于npm

2.conda是什么

是个管理工具，可以当作Python的包管理工具，但相比于pip功能更强大,“Conda是适用于任何语言的软件包、依赖项和环境管理系统 --包括Python,R,Ruby,Lua,Scala,Java,JavaScript,C / C ++,FORTRAN等。

可以这样表示:conda ≈ pip（python包管理） + virtualenv（虚拟环境） + 非python依赖包管理。

3.PyTorch是什么

PyTorch是一个开源的Python机器学习库，基于Torch，用于自然语言处理等应用程序。它是一个基于Python的可续计算包，提供两个高级功能：1、具有强大的GPU加速的张量计算（如NumPy）。2、包含自动求导系统的深度神经网络

记录安装参考：juejin.cn/post/715295…

4. ECAPA-TDNN

全称：Emphasized Channel Attention, Propagation and Aggregation in time delay neural network Based Speaker Verification，目前主流的声纹识别模型

二. 主要步骤

本次主要目的是利用ECAPA-TDNN 模型去训练一套自己的鸟类声音识别的模型，然后可以通过一个新的鸟叫音频，识别出该鸟的种类。主要分为以下几步：

1）特征提取
2）声音降噪
3）声纹网络
4）损失函数
5）测试
6）声纹指标
7）获取评分