一、opendatalab
从sklearn上获取的dataset 往往过于简单且数据处理好了,容易获得比较好的效果。因此考虑寻找工业界比较实际的数据。在代码运行过程中可以比较好地模拟实际工作中出现的情况。
安装 pip install opendatalab 版本升级 pip install -U opendatalab
odl login # 登录 odl info The_Pile # 查看此数据集的元数据 odl ls The_Pile # 查看此数据集的文件列表 odl get The_Pile # 下载此数据集