你应该懂的AI大模型（七）之 datasetsdataset库也是Hugging Face 提供的一个强大工具库，用于加

dataset库也是Hugging Face 提供的一个强大工具库，用于加载、处理和操作大规模数据集。它支持多种格式（如 CSV、JSON、Parquet 等）以及在线数据集（如 Hugging Face Hub 上的数据集）。

Transformers库通常与datasets库一起使用来处理和准备数据。

我们通过下面的代码来详细看一下 dataset 库是如何使用的。

from datasets import load_dataset,load_from_disk

#在线加载数据
'''
函数中的split参数用于指定数据集的分区，例如“train”、“test”、“validation”等‌。通过指定split参数，可以加载数据集的不同部分，例如训练集、测试集或验证集。如果不指定split参数，load_dataset函数会返回一个包含所有分区的 DatasetDict 对象‌
'''
 dataset = load_dataset(path="NousResearch/hermes-function-calling-v1",split="train")
 print(dataset)

#转存为CSV格式
 dataset.to_csv(path_or_buf=r"D:\XXX\xxx\xxx\xxx\xxx-function-calling-v1.csv")
# 加载csv格式数据
 dataset = load_dataset(path="csv",data_files=r"D:\XXX\xxx\xxx\xxx\xxx-function-calling-v1.csv")
 print(dataset)

#加载缓存数据
# dataset = load_from_disk(r"D:\PycharmProjects\disanqi\demo_5\data\ChnSentiCorp")
# print(dataset)


test_data = dataset["train"]
for data in test_data:
    print(data)

Hugging Face 的 datasets 库支持多种数据集格式，如 CSV、JSON、TFRecord 等。

加载数据集后，可以查看数据集的基本信息，如数据集大小、字段名称等。这有助于我们了解数据的分布情况，并在后续步骤中进行适当的处理。

原文地址：https://www.cnblogs.com/bricheersz/p/18928425