百度AI studio使用介绍

4,850 阅读3分钟

首先声明:利益无关。

它应该是当前环境下最好的深度学习训练的方式了。

百度AI的链接:aistudio.baidu.com/aistudio/in… 帮助文档的链接:ai.baidu.com/ai-doc/AIST…

注册登录后,选择 项目-创建项目

配置资源:Notebook。数据集可以后续再添加。创建完毕以后得到以下项目:

在修改中可以重新设置本项目挂载的数据集。

选择启动环境可以得到以下:

可以看到它给出的显卡是Tesla V100 16G。经过测试,偶尔可能会给Tesla V100 32G的版本。百度AI每日运行后会赠送12小时时长,连续使用5天额外赠送48小时时长。四舍五入等于5天后随便运行。

数据集

回到首页,选择数据集,创建数据集,上传数据即可。最多上传10个文件,单个文件不超过10GB,文件名长度<= 18。上传完毕以后把数据集挂载到项目下(进入项目选择修改,然后挂载数据集即可)。

在进入项目后,可以进入到data目录下看到自己挂载的数据集。

训练

百度AI一次只能打开一个GPU项目和3个CPU项目。如果需要处理数据可以使用CPU项目处理,使用GPU项目训练,提高利用率。

进入项目中

以我自己的某个项目为例,由于每次关闭项目都会清除除了/home/aistudio目录下的所有内容,因此需要在/home/aistudio下创建一个文件夹用于存放python库,下图是我用到的一些库:

mkdir /home/aistudio/external-libraries

在/home/aistudio/目录下创建external-libraries文件夹

pip install beautifulsoup4 -t /home/aistudio/external-libraries

在/home/aistudio/external-libraries安装beautifulsoup4库

同时添加如下代码到你的代码文件的头部(在import包之前):

import sys
sys.path.append('/home/aistudio/external-libraries')

有几点需要注意:

  • 每次重新打开项目,项目会重新加载/home/aistudio/下的所有文件,如果网络信号不好,可能会加载失败,请寻找一个信号好的位置,加载完毕后则没关系。
  • 请在终端(terminal)下运行项目文件,不要在Notebook中运行。Notebook只能使用百度的框架,而终端(terminal)下可以使用其他框架。
  • 训练中请勿关闭当前网页,在项目内的设置内可以看到,关闭网页后环境会终止。
  • 一个项目一共可以创建3个终端页面,但是刷新会丢失除了第一个以外的所有页面,包括打开的代码页面(不保存刷新会丢失)。
  • 我未使用过tensorboard等可视化工具,可能无法使用。
  • 上传任何数据建议使用数据集挂载的方式,直接上传可能非常慢。
  • 从项目中下载内容非常不稳定,根据我使用的情况,每下载一分钟速度会归零,虽然下载过程中跑满带宽。下载速度归零后可以点击暂停和开始重新开始下载既可以恢复,但是也只能下一分钟。我用的浏览器是Chrome。
  • 代码上传可以使用数据集挂载的方式,也可以使用Github同步的方式,我使用的是Github同步的方式。

帮助文档的链接:ai.baidu.com/ai-doc/AIST…

碰到问题可以查询帮助文档,无法解决后可以找我讨论解决。