datasets包各种存储数据集方式的优缺点save_to_disk: 简单粗暴，保存下来的数据集不支持流式读取。测试

save_to_disk: 简单粗暴，保存下来的数据集不支持流式读取。测试42G的数据集读取需要42s

to_json: 需要自己分片，否则大型数据集会保存成一个超大的json，虽然也没什么不好。支持流式读取。

分片方法：
 `dataset.shard(num_shards=5, index=0)`然后通过`for`循环保存json

附录： load_dataset("json", data_files=[raw_data_path])这样读json，可能会出现报错原因是，某个字段在不同数据里有着不同的数据类型，例如有的数据是None,与其他的str不符合