实习心得--如何在公司的计算集群上搭建pyhton开发环境

1,215 阅读2分钟

1. 登录云计算的服务器

2. 下载并安装anaconda 因为研发网不能访问外网,只能从内部服务器上下载资源

cd
mkdir local && cd local
wget http://....../anaconda/archive/Anaconda3-2019.03-Linux-x86_64.sh #自己公司的ftp服务器地址
bash Anaconda3-2019.03-Linux-x86_64.sh

avatar
按提示安装完 后删除安装文件 安装完后检查 ~/.bashrc文件应该类似下图
avatar
3. 配置conda install的使用环境 同样因为研发网不能访问外网,需要将conda install命令的默认源更换为公司服务器 具体为创建配置文件~/.condarc并且在配置文件中写入如下内容:

channels:
  - https://....../anaconda/cloud/pytorch
  - https://....../anaconda/cloud/menpo
  - https://....../anaconda/cloud/bioconda
  - https://....../anaconda/cloud/conda-forge
  - https://....../anaconda/pkgs/main
  - https://....../anaconda/pkgs/free
  - https://....../anaconda/anthol
show_channel_urls: yes
ssl_verify: false

avatar
4. 在集群上装载cuda模块,并且配置cuda和cudnn的库文件路径 如果是准备使用tensorflow-gpu-1.13.1版本,那么最好选择 cuda10.0-cudnn7.4。相关目录在/opt/lib/cudnn-7.4.2-cuda-10/lib64 和 /opt/lib/cuda-10.1/lib64下。如果实在找不到可以参考我写的这篇博文,快速找到相关库文件
avatar
5. 安装opencv库和tensorflow-gpu版本,pytorch,sklearn等 python3.7版本是不能正确安装tensorflow-gpu-1.13.1的,会报错误,这是有点坑的。错误如下

importerror: /lib64/libm.so.6: version 'GLIBC_2.23' not found (required by /home/...

需要降低版本:

conda create --name tensorflow-gpu python=3.6 
source activate tensorflow-gpu

前面的source不能丢,确保命令行的前面出现(tensorflow-gpu),在tensorflow-gpu环境下才能进行后面的操作

avatar
conda search opencv

指定opencv版本为3.4.2,截至201907 opencv已经更新至4.1.0,但是个人感觉前面的版本更好用

conda install opencv==3.4.2

安装tensorflow-gpu和keras等

conda install tensorflow-gpu keras joblib

avatar
因为新配置了环境,所以大部分库都没有安装,需要手动安装

conda install pytorch scikit-learn matplotlib

6. 最后不要忘记在.bashrc文件中配置激活tensorflow-gpu的环境

source activate tensorflow-gpu

avatar

7. 提醒虚拟桌面最好不要关机哟!