使用Python将CSV转换为Parquet的方法

2,009 阅读1分钟
import pandas as pd
df = pd.read_csv('my_file.csv')
df.to_parquet('my_file.parquet')

问题的提出

给出一个CSV文件'my_file.csv' 。如何将该文件转换为一个名为'my_file.parquet' 的Parquet文件?

💡 信息Apache Parquet是一种开源的、面向列的数据文件格式,设计用于高效的数据存储和检索,使用数据压缩和编码方案来处理大量的复杂数据。Parquet可用于多种语言,包括Java、C++和Python。

这里有一个文件格式的例子

源文件

到目前为止,将CSV转换成Parquet文件格式的最Pythonic解决方案是这样的。

CSV转Parquet的6个简单步骤

下面是一个使用Pandas库读取CSV并将其内容转换为Parquet文件的逐步方法。

  • 第一步:运行 [pip install pandas](https://blog.finxter.com/how-to-install-pandas-in-python/)如果你的环境中还没有安装该模块的话。
  • 第2步:运行pip install pyarrow安装pyarrow模块
  • 3步:运行pip install fastparquet ,安装fastparquet 模块
  • 4步:导入pandas使用import pandas as pd
  • 5步:使用df = pd.read_csv('my_file.csv')将CSV文件成一个DataFrame。
  • 第6步:使用编写Parquet文件df.to_parquet('my_file.parquet')

将CSV文件转换为Parquet文件的代码片段非常简单(步骤4-6)

import pandas as pd
df = pd.read_csv('my_file.csv')
df.to_parquet('my_file.parquet')

如果你把这段代码放入Python文件csv_to_parquet.py ,并运行它,你会得到如下的文件夹结构,其中包含转换后的输出文件my_file.parquet

该文件的输出是相当难读的--如果你在记事本中打开Parquet,它看起来是这样的。

这是因为它使用了更高级的压缩技术,你应该只在Hadoop框架内以编程方式使用它