你应该懂的AI大模型(七)之 datasets

4 阅读1分钟

dataset库也是Hugging Face 提供的一个强大工具库,用于加载、处理和操作大规模数据集。它支持多种格式(如 CSV、JSON、Parquet 等)以及在线数据集(如 Hugging Face Hub 上的数据集)。

Transformers库通常与datasets库一起使用来处理和准备数据。

我们通过下面的代码来详细看一下 dataset 库是如何使用的。

from datasets import load_dataset,load_from_disk

#在线加载数据
'''
函数中的split参数用于指定数据集的分区,例如“train”、“test”、“validation”等‌。通过指定split参数,可以加载数据集的不同部分,例如训练集、测试集或验证集。如果不指定split参数,load_dataset函数会返回一个包含所有分区的 DatasetDict 对象‌
'''
 dataset = load_dataset(path="NousResearch/hermes-function-calling-v1",split="train")
 print(dataset)

#转存为CSV格式
 dataset.to_csv(path_or_buf=r"D:\XXX\xxx\xxx\xxx\xxx-function-calling-v1.csv")
# 加载csv格式数据
 dataset = load_dataset(path="csv",data_files=r"D:\XXX\xxx\xxx\xxx\xxx-function-calling-v1.csv")
 print(dataset)

#加载缓存数据
# dataset = load_from_disk(r"D:\PycharmProjects\disanqi\demo_5\data\ChnSentiCorp")
# print(dataset)


test_data = dataset["train"]
for data in test_data:
    print(data)

Hugging Face 的 datasets 库支持多种数据集格式,如 CSV、JSON、TFRecord 等。

加载数据集后,可以查看数据集的基本信息,如数据集大小、字段名称等。这有助于我们了解数据的分布情况,并在后续步骤中进行适当的处理。

原文地址:https://www.cnblogs.com/bricheersz/p/18928425