【datasets】问题

93 阅读1分钟
  1. 以如下结构存储的数据
from datasets import Dataset  
import pandas as pd  
  
  
json_data = [{"k1":"str", "k2":"str", "k3":"str"}]*10  
df = pd.DataFrame(json_data)  
dataset = Dataset.from_pandas(df)  

当json_data足够大的时候,Dataset.from_pandas(df)会报错,需要拆分成多个部分构建

这里改为直接从json构建也不可以

dataset = Dataset.from_json(json.dumps(json_data))  
  1. 上面结构存储的数据,读取后,会出现奇怪的格式 dataset.map()时,默写数据的格式会变成[{"k1":"str", "k2":"str", "k3":"str"}, {...},...,"str", "str"],即数据类型并不是最初存储的每条都是dict,而是会有一些str混入,

上述问题不知道有否是由pandas引起