算法训练公开数据集的获取

163 阅读1分钟

一、opendatalab

opendatalab.org.cn/home

从sklearn上获取的dataset 往往过于简单且数据处理好了,容易获得比较好的效果。因此考虑寻找工业界比较实际的数据。在代码运行过程中可以比较好地模拟实际工作中出现的情况。

安装 pip install opendatalab 版本升级 pip install -U opendatalab

odl login # 登录 odl info The_Pile # 查看此数据集的元数据 odl ls The_Pile # 查看此数据集的文件列表 odl get The_Pile # 下载此数据集