import pandas as pd
df = pd.read_csv('my_file.csv')
df.to_parquet('my_file.parquet')
问题的提出
给出一个CSV文件'my_file.csv' 。如何将该文件转换为一个名为'my_file.parquet' 的Parquet文件?
信息:Apache Parquet是一种开源的、面向列的数据文件格式,设计用于高效的数据存储和检索,使用数据压缩和编码方案来处理大量的复杂数据。Parquet可用于多种语言,包括Java、C++和Python。
这里有一个文件格式的例子
到目前为止,将CSV转换成Parquet文件格式的最Pythonic解决方案是这样的。
CSV转Parquet的6个简单步骤
下面是一个使用Pandas库读取CSV并将其内容转换为Parquet文件的逐步方法。
- 第一步:运行
[pip install pandas](https://blog.finxter.com/how-to-install-pandas-in-python/)如果你的环境中还没有安装该模块的话。 - 第2步:运行
pip install pyarrow,安装pyarrow模块 - 第3步:运行
pip install fastparquet,安装fastparquet模块 - 第4步:导入pandas使用
import pandas as pd - 第5步:使用
df = pd.read_csv('my_file.csv'),将CSV文件读成一个DataFrame。 - 第6步:使用编写Parquet文件
df.to_parquet('my_file.parquet')
将CSV文件转换为Parquet文件的代码片段非常简单(步骤4-6)
import pandas as pd
df = pd.read_csv('my_file.csv')
df.to_parquet('my_file.parquet')
如果你把这段代码放入Python文件csv_to_parquet.py ,并运行它,你会得到如下的文件夹结构,其中包含转换后的输出文件my_file.parquet 。
该文件的输出是相当难读的--如果你在记事本中打开Parquet,它看起来是这样的。

这是因为它使用了更高级的压缩技术,你应该只在Hadoop框架内以编程方式使用它