dataset库也是Hugging Face 提供的一个强大工具库,用于加载、处理和操作大规模数据集。它支持多种格式(如 CSV、JSON、Parquet 等)以及在线数据集(如 Hugging Face Hub 上的数据集)。
Transformers库通常与datasets
库一起使用来处理和准备数据。
我们通过下面的代码来详细看一下 dataset 库是如何使用的。
from datasets import load_dataset,load_from_disk
#在线加载数据
'''
函数中的split参数用于指定数据集的分区,例如“train”、“test”、“validation”等。通过指定split参数,可以加载数据集的不同部分,例如训练集、测试集或验证集。如果不指定split参数,load_dataset函数会返回一个包含所有分区的 DatasetDict 对象
'''
dataset = load_dataset(path="NousResearch/hermes-function-calling-v1",split="train")
print(dataset)
#转存为CSV格式
dataset.to_csv(path_or_buf=r"D:\XXX\xxx\xxx\xxx\xxx-function-calling-v1.csv")
# 加载csv格式数据
dataset = load_dataset(path="csv",data_files=r"D:\XXX\xxx\xxx\xxx\xxx-function-calling-v1.csv")
print(dataset)
#加载缓存数据
# dataset = load_from_disk(r"D:\PycharmProjects\disanqi\demo_5\data\ChnSentiCorp")
# print(dataset)
test_data = dataset["train"]
for data in test_data:
print(data)
Hugging Face 的 datasets 库支持多种数据集格式,如 CSV、JSON、TFRecord 等。
加载数据集后,可以查看数据集的基本信息,如数据集大小、字段名称等。这有助于我们了解数据的分布情况,并在后续步骤中进行适当的处理。
原文地址:https://www.cnblogs.com/bricheersz/p/18928425