被逼无奈,为了论文,入坑ECAPA,目前大脑一片空白,仅做学习笔记之用。首先,该模型demo运行之前先对一些基本知识做个记录
一. 小趴菜的扫盲:
1.pip是什么
通用的 Python 包管理工具。提供了对Python 包的查找、下载、安装、卸载的功能。类似于npm
2.conda是什么
是个管理工具,可以当作Python的包管理工具,但相比于pip功能更强大,“Conda是适用于任何语言的软件包、依赖项和环境管理系统 --包括Python,R,Ruby,Lua,Scala,Java,JavaScript,C / C ++,FORTRAN等。
可以这样表示:conda ≈ pip(python包管理) + virtualenv(虚拟环境) + 非python依赖包管理。
3.PyTorch是什么
PyTorch是一个开源的Python机器学习库,基于Torch,用于自然语言处理等应用程序。它是一个基于Python的可续计算包,提供两个高级功能:1、具有强大的GPU加速的张量计算(如NumPy)。2、包含自动求导系统的深度神经网络
记录安装参考:juejin.cn/post/715295…
4. ECAPA-TDNN
全称:Emphasized Channel Attention, Propagation and Aggregation in time delay neural network Based Speaker Verification,目前主流的声纹识别模型
二. 主要步骤
本次主要目的是利用ECAPA-TDNN 模型去训练一套自己的鸟类声音识别的模型,然后可以通过一个新的鸟叫音频,识别出该鸟的种类。 主要分为以下几步:
- 1) 特征提取
- 2) 声音降噪
- 3) 声纹网络
- 4) 损失函数
- 5) 测试
- 6) 声纹指标
- 7) 获取评分