datasets遇到嵌套结构有时会推测错所有数据的结构,从而在处理某一条数据时报错
解决办法:
事先定义好结构
dataset = datasets.load_dataset(
"json",
data_files=["train.json"],
features=Features(
{
"input": Value(dtype="string"),
"output": Value(dtype="string"),
"history": Sequence(feature=Sequence(Value(dtype="string"))),
"category": Value(dtype="string"),
}
),
)