使用Python和pandas批量将parquet文件转换成CSV格式

45 阅读1分钟

在做数据处理和训练时通常会遇到数据集是parquet拆分的格式,这时可能就需要对多个parquet进行转换再合并,通过pandas就可以轻松完成此类工作。

示例代码

import pandas as pd
import os

# 遍历文件夹下的parquet文件做转换
path = "/your parquet files path/"
files = os.listdir(path)
for file in files:
    if file.endswith(".parquet"):
        df = pd.read_parquet(path + file)
        df.to_csv(path + file.replace(".parquet", ".csv"), index=False)