什么是Apex库?
Apex是混合精度库,主要是加速深度学习模型的训练。
博主是因为复现论文不得已需要用到,没想到一直报错。。。
安装步骤
git clone -b 23.05-devel https://github.com/NVIDIA/apex
cd apex/
pip install -v --disable-pip-version-check --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" ./
注意:apex库一定要git clone下来,而不是pip install。
此外,有时候你的cuda或者cudatoolkit版本太低,master分支可能会报错,可以尝试一下切换成过去分支,比如说cd apex之后git checkout 22.04-dev
安装注意事项
-
==cuda版本必须要和当前虚拟环境所安装的torch版本以及cudatoolkit版本一致==,我开始是cuda版本12.0,cudatoolkit版本是12.1。安装过程还会提醒我mismatch问题,因此这个最好严格匹配,不然可能报错。
-
gcc库可能报错,可以尝试降低版本再试试。
-
最后安装过程持续了很长时间,耐心等等。
-
不知道为什么developer.nvidia.com官网一直打不开,但还好可以直接用wget指令下载。
-
可以在服务器上安装多个版本的cuda,最后存在usr/local下面,只要环境变量配置正确然后软链接没问题就可以。
-
如果实在下载不成功的话,linux系统可以试试这个wheel下载,在官方issue下看到的,但目前还没有Windows版本的wheel.Release v24.4.1 · AlongWY/apex_wheels · GitHub
一些粗略的记录,希望大家都可以避雷一下,不要像我一下搞了一下午+一晚上啊哈哈哈哈哈哈别管已疯嘻嘻