众所周知,深度学习里模型的训练非常需要GPU显卡资源,目前 GPU 云服务器市场,有免费的,也有付费的。
免费的诸如Colab、毕昇、九天,但是Colab对使用有限制,非常容易断线封号,毕昇需要算力豆而且算力豆的获取越来越少,九天则是在不久前停止了新人300小时白嫖福利(估计玩不起了)。而付费的平台,一般是按小时计费,以 NVIDIA Tesla T4 为例,我查找了目前某源云、某池云、智某云、某里云的收费分别为3~6元****每小时,包月的话是2000+每月,而更高级的V100更是贵的要死,训练一个模型就大概花费上千,这让人捉襟见肘。
最近有个GPU服务器的活动,分享给诸位:
一、介绍
本来腾讯云的GPU云服务器也是非常贵的,无论是按时还是按月租都是比较大的花销,不过最近出了个年末活动,活动链接:****腾讯云GPU实验室活动
- 活动一:30块钱15天的T4显卡(16G)、60块钱15天的V100显卡(32G)、70块钱15天的V100显卡高配版(32G+内存40G+10核),
提示:
-
如果是短期实验可以买这个,15天内赶紧做完,到期前一定要记得把模型下载到本机;
-
如果是长期实验,建议你直接买下面的那款包月服务,因为这个体验套餐续费是优惠很低的(3000元/月);
-
这个秒杀活动十二月每天都有,上午一般都可以买到,个人觉得优先抢第一款的T4,次优先抢第二款的V100;如果第一款第二款被抢完了,还可以点击**链接:腾讯云秒杀活动-**秒杀专区右边两个也可以抢到;
-
活动二:120块钱一个月的T4显卡,220块钱一个月的V100显卡,240块钱一个月的V100显卡高配版,(最多可订6个月的)
-
提示:如果你的模型对显存要求低于15GB,购买第三款T4,如果高于15GB,购买第一或第二款;
-
近几个月有大量实验需求,建议购买3个月或者6个月;
-
可以几个人买了一起用。
在比较了多家GPU深度学习平台后,我发现这次的活动是非常划算的,大家也可以网上看一下对比多家,这确实是我见到目前**最低的GPU核时购买方案。**要注意的是,一个平台拥有的GPU服务器数量总是有限的,如果卖完了,活动估计就提前结束了,或者就得等别人租期到了之后才会继续推出。
二、动手试验
2.1、创建服务器
我们进入页面后可以看到,体验套餐限时秒杀活动第一个T4是8核16GB显存(一定要注意,上面写的32G指的是内存,如果你的实验需要15GB+的显存,T4是跑不起来的),第二个V100是8核32GB显存,第三个V100也是32GB显存,不过CPU核心有10个,硬盘速度也快一点,每个时段的量都不多,需要抢,我的模型不大所以我以T4来展示
这里选择地域(选新加坡优先),预装镜像(一般Pytorch1.9,TF同学可以选择TensoFlow),其他选择默认,数据盘可以先不选,系统初始有100G的空间。
购买成功后,进入控制台=>云服务器=>实例,可以看到我们的服务器创建成功,时长为半个月,然后也给了ip地址供我们平台外连接使用。
2.2、登录服务器
我们点击右端登录,即可在浏览器内直接打开web shell登录页面,输入账号密码(站内信里会告诉你)即可登录服务器:
进入终端后,我们直接使用一个nvidia-smi查看,确实是T4显卡的配置,显存15109MB,足以跑起来大多数实验:
我的朋友购买了第三个选项,也确实验证是V100显卡32GB显存:
有了足量的显卡资源,就可以进行实验了!
2.3、连接服务器(选看)
2.3.1、使用MobaXterm连接
腾讯云仅仅为我们提供了终端页面,体验起来不如九天毕昇,但是既然给了我们ip地址和密码,我们就可以通过各种工具(MobaXterm、堡塔、PuTTY、Xshell、Pycharm工具等等)连接到服务器。
我比较习惯于使用MobaXterm,首先点击左上角的new session:
新建一个SSH连接,如果需要大量传文件可以新建一个FTP连接:
Remote Host填服务器的IP地址,然后点击ok,进入终端后,输入用户名和密码(也就是站内信发给你的那个),就可以连接上服务器啦,如下可以看到服务器的文件目录和终端:
我们使用conda env list,可以看到系统已经有一个名为base的虚拟环境,输入conda list可以看到base环境为我们预装了torch1.9和torchvision0.10.0,不用再费劲装Pytorch的基础环境了。
有了这些,我们后续可以选择在此环境上进行实验,也可以新建虚拟环境,然后导入代码和数据集训练,这里就不再赘述。
2.3.2、使用宝塔连接
在终端输入:wget -O install.sh
http://download.bt.cn/install/install-ubuntu_6.0.sh
&& sudo bash install.sh ed8484bec
输入Y,确认安装宝塔,等待片刻,显示这样就是成功了!
本机可以访问外网地址,然后输入当前给的username和password就可以成功登陆到宝塔面板了:
2.4、测试服务器质量(选看)
2.4.1、测试上传速度
使用宝塔,测试一下文件的上传和下载速度:
上传了bird数据集,上传速度为1.40+MB/s,Bird数据集在主要是我本机的上行网速和硬盘读取速度不够,估计你们还能更高(一般可能3MB/s+),实测在18分钟内上传完毕。
2.4.2、测试下载速度
右键点击就可以进行下载,在下载时可以自动调浏览器下载器或者迅雷下载,下载速率1.1+MB/s,同样受本机的网速和服务器的带宽影响。
2.4.3、测试下载包的速度
接着测试了各种Python包
的下载速度,通过清华镜像源
下载的网速基本保持在 5MB/s
左右,使用起来比九天毕昇要流畅许多。
三、Q&A
使用过程中可以在评论区留言,我会在此回答...
Q1:提示 NoWritableEnvsDirError: No writeable envs directories configured
A1:sudo
[chmod](https://so.csdn.net/so/search?q=chmod&spm=1001.2101.3001.7020)
a+w .conda
Q2:宝塔页面打不开,显示404.
A2:检查是否打开了8888、888、443等端口,如果已经打开了还是显示404,重启机器就好了。