在做数据处理和训练时通常会遇到数据集是parquet拆分的格式,这时可能就需要对多个parquet进行转换再合并,通过pandas就可以轻松完成此类工作。
示例代码
import pandas as pd
import os
# 遍历文件夹下的parquet文件做转换
path = "/your parquet files path/"
files = os.listdir(path)
for file in files:
if file.endswith(".parquet"):
df = pd.read_parquet(path + file)
df.to_csv(path + file.replace(".parquet", ".csv"), index=False)