使用Python将CSV转换为Parquet的方法5/5 - (1票) 问题的提出给出一个CSV文件'my_file.

import pandas as pd
df = pd.read_csv('my_file.csv')
df.to_parquet('my_file.parquet')

问题的提出

给出一个CSV文件'my_file.csv' 。如何将该文件转换为一个名为'my_file.parquet' 的Parquet文件？

信息：Apache Parquet是一种开源的、面向列的数据文件格式，设计用于高效的数据存储和检索，使用数据压缩和编码方案来处理大量的复杂数据。Parquet可用于多种语言，包括Java、C++和Python。

这里有一个文件格式的例子

到目前为止，将CSV转换成Parquet文件格式的最Pythonic解决方案是这样的。

下面是一个使用Pandas库读取CSV并将其内容转换为Parquet文件的逐步方法。

第一步：运行 [pip install pandas](https://blog.finxter.com/how-to-install-pandas-in-python/)如果你的环境中还没有安装该模块的话。
第2步：运行pip install pyarrow ，安装pyarrow模块
第3步：运行pip install fastparquet ，安装fastparquet 模块
第4步：导入pandas使用import pandas as pd
第5步：使用df = pd.read_csv('my_file.csv') ，将CSV文件读成一个DataFrame。
第6步：使用编写Parquet文件df.to_parquet('my_file.parquet')

将CSV文件转换为Parquet文件的代码片段非常简单（步骤4-6）

import pandas as pd
df = pd.read_csv('my_file.csv')
df.to_parquet('my_file.parquet')

如果你把这段代码放入Python文件csv_to_parquet.py ，并运行它，你会得到如下的文件夹结构，其中包含转换后的输出文件my_file.parquet 。

该文件的输出是相当难读的--如果你在记事本中打开Parquet，它看起来是这样的。

这是因为它使用了更高级的压缩技术，你应该只在Hadoop框架内以编程方式使用它