首先声明:利益无关。
它应该是当前环境下最好的深度学习训练的方式了。
百度AI的链接:aistudio.baidu.com/aistudio/in… 帮助文档的链接:ai.baidu.com/ai-doc/AIST…
注册登录后,选择 项目-创建项目
选择启动环境可以得到以下:
数据集
回到首页,选择数据集,创建数据集,上传数据即可。最多上传10个文件,单个文件不超过10GB,文件名长度<= 18。上传完毕以后把数据集挂载到项目下(进入项目选择修改,然后挂载数据集即可)。
在进入项目后,可以进入到data目录下看到自己挂载的数据集。
训练
百度AI一次只能打开一个GPU项目和3个CPU项目。如果需要处理数据可以使用CPU项目处理,使用GPU项目训练,提高利用率。
进入项目中
mkdir /home/aistudio/external-libraries
在/home/aistudio/目录下创建external-libraries文件夹
pip install beautifulsoup4 -t /home/aistudio/external-libraries
在/home/aistudio/external-libraries安装beautifulsoup4库
同时添加如下代码到你的代码文件的头部(在import包之前):
import sys
sys.path.append('/home/aistudio/external-libraries')
有几点需要注意:
- 每次重新打开项目,项目会重新加载/home/aistudio/下的所有文件,如果网络信号不好,可能会加载失败,请寻找一个信号好的位置,加载完毕后则没关系。
- 请在终端(terminal)下运行项目文件,不要在Notebook中运行。Notebook只能使用百度的框架,而终端(terminal)下可以使用其他框架。
- 训练中请勿关闭当前网页,在项目内的设置内可以看到,关闭网页后环境会终止。
- 一个项目一共可以创建3个终端页面,但是刷新会丢失除了第一个以外的所有页面,包括打开的代码页面(不保存刷新会丢失)。
- 我未使用过tensorboard等可视化工具,可能无法使用。
- 上传任何数据建议使用数据集挂载的方式,直接上传可能非常慢。
- 从项目中下载内容非常不稳定,根据我使用的情况,每下载一分钟速度会归零,虽然下载过程中跑满带宽。下载速度归零后可以点击暂停和开始重新开始下载既可以恢复,但是也只能下一分钟。我用的浏览器是Chrome。
- 代码上传可以使用数据集挂载的方式,也可以使用Github同步的方式,我使用的是Github同步的方式。
帮助文档的链接:ai.baidu.com/ai-doc/AIST…
碰到问题可以查询帮助文档,无法解决后可以找我讨论解决。