datasets包各种存储数据集方式的优缺点

340 阅读1分钟

save_to_disk: 简单粗暴,保存下来的数据集 不支持流式读取。测试42G的数据集读取需要42s

to_json: 需要自己分片,否则大型数据集会保存成一个超大的json,虽然也没什么不好。支持流式读取。

分片方法:
 `dataset.shard(num_shards=5, index=0)`然后通过`for`循环保存json
 

附录: load_dataset("json", data_files=[raw_data_path])这样读json,可能会出现报错 原因是,某个字段在不同数据里有着不同的数据类型,例如有的数据是None,与其他的str不符合