- 以如下结构存储的数据
from datasets import Dataset
import pandas as pd
json_data = [{"k1":"str", "k2":"str", "k3":"str"}]*10
df = pd.DataFrame(json_data)
dataset = Dataset.from_pandas(df)
当json_data足够大的时候,Dataset.from_pandas(df)会报错,需要拆分成多个部分构建
这里改为直接从json构建也不可以
dataset = Dataset.from_json(json.dumps(json_data))
- 上面结构存储的数据,读取后,会出现奇怪的格式
dataset.map()时,默写数据的格式会变成[{"k1":"str", "k2":"str", "k3":"str"}, {...},...,"str", "str"],即数据类型并不是最初存储的每条都是dict,而是会有一些str混入,
上述问题不知道有否是由pandas引起