numpy和pandas实战:文件夹CSV文件中的第一列数据

638 阅读2分钟

前几天有个小伙伴问了一个问题,关于Python读取文件夹下多个CSV文件中的第一列数据并求其最大值和最小值,大家讨论的还是相当激烈的啊,这里总结两个方法,希望后面有遇到该问题的小伙伴可以少走弯路。(文末附Python各阶段视频教程)

/一、问题描述/

如果想求CSV或者Excel中的最大值或者最小值,我们一般借助Excel中的自带函数max()和min()就可以求出来。如果只是一两个文件,处理起来肯定是小菜一碟了,当文件的个数达到上百个,如果再按照该方法进行的话,那可就费时费力了,事倍功半。

不过白慌,针对下图中的多个CSV文件,我们可以利用Python来一次性遍历读取多个文件,然后分别对文件进行处理,事半功倍。

![numpy和pandas实战:文件夹CSV文件中的第一列数据](https://p6-tt.byteimg.com/origin/pgc-image/3f611feac57044abb016da2c0d42702c?from=pc)

/二、解决方法/

1、首先来看看文件内容,这里取其中一个文件的内容,如下图所示。

![numpy和pandas实战:文件夹CSV文件中的第一列数据](https://p1-tt.byteimg.com/origin/pgc-image/06de7dee0a6b4a95a1e1395527faa61f?from=pc)

当然这只是文件内容中的一小部分,真实的数据量绝对不是21个。

2、现在我们想对第一列或者第二列等数据进行操作,以最大值和最小值的求取为例,这里以第一列为目标数据,来进行求值。

![numpy和pandas实战:文件夹CSV文件中的第一列数据](https://p1-tt.byteimg.com/origin/pgc-image/8301492da46141139086aaa51e841417?from=pc)

通常我们通过Python来处理数据,用的比较多的两个库就是numpy和pandas,在本篇文章中,将分别利用两个库来进行操作。

3、其中使用pandas库来实现读取文件夹下多个CSV文件中的第一列数据并求其最大值和最小值的代码如下图所示。

![numpy和pandas实战:文件夹CSV文件中的第一列数据](https://p3-tt.byteimg.com/origin/pgc-image/cf01a5c8a39e42ccb977bc546b113302?from=pc)

4、通过pandas库求取的结果如下图所示。

![numpy和pandas实战:文件夹CSV文件中的第一列数据](https://p1-tt.byteimg.com/origin/pgc-image/a170f2d6e3364f4eb93e899544eee8f6?from=pc)

通过该方法,便可以快速的取到文件夹下所有文件的第一列的最大值和最小值。

5、下面使用numpy库来实现读取文件夹下多个CSV文件中的第一列数据并求其最大值和最小值的代码如下图所示。

![numpy和pandas实战:文件夹CSV文件中的第一列数据](https://p6-tt.byteimg.com/origin/pgc-image/40d1c067672643f1b2f1a5f8bd7948cb?from=pc)

6、通过numpy库求取的结果如下图所示。

![numpy和pandas实战:文件夹CSV文件中的第一列数据](https://p3-tt.byteimg.com/origin/pgc-image/aa0a361307474ed197dd547d331defaf?from=pc)

通过该方法,也可以快速的取到文件夹下所有文件的第一列的最大值和最小值。

/小结/

本文基于Python,使用numpy库和pandas库实现了读取文件夹下多个CSV文件,并求取文件中第一列数据的最大值和最小值,当然除了这两种方法之外,肯定还有其他的方法也可以做得到的,欢迎大家积极探讨。