save_to_disk: 简单粗暴,保存下来的数据集 不支持流式读取。测试42G的数据集读取需要42s
to_json: 需要自己分片,否则大型数据集会保存成一个超大的json,虽然也没什么不好。支持流式读取。
分片方法:
`dataset.shard(num_shards=5, index=0)`然后通过`for`循环保存json
附录:
load_dataset("json", data_files=[raw_data_path])这样读json,可能会出现报错
原因是,某个字段在不同数据里有着不同的数据类型,例如有的数据是None,与其他的str不符合