在这篇文章中,我们将了解如何使用 read_csv() 函数与自定义定界符。首先,让我们先了解一下基础知识。
什么是Pandas?
今天有很多类型的数据结构在使用,有些我们可能知道,有些可能不知道。Pandas 是一个非常流行的 Python 库,主要允许我们创建两种类型的数据结构:
- 数据框架
- 系列
数据框是由行和列组成的矩阵,以类似表格的格式存储数据。数据框中的项目数量需要被平均量化,即每一列都必须有相同数量的项目。
系列 是单维数据结构,它更像一个数组,可以存储不同数据类型的项目。它主要由构造器Pandas创建。
什么是CSV文件?
CSV是逗号分隔值的意思。
例如,假设存在一个文件,其中充满了多个随机值,但当一起看时,它没有任何意义。但如果我们用逗号把所有的值分开,它就变成了一个学校的记录,里面充满了学生的数据库,他们的名字、卷号、地址等等。
什么是分隔符?
分隔符是一个特殊的字符或标点符号,用来分隔或显示两个词或数字之间的差异。在大多数情况下,逗号被用作分界符,但也可以使用其他字符。
正如我们在上面的例子中所观察到的,一旦使用逗号将一堆没有特别意义的数据隔离开来,它们就开始变得有意义了,同样,在一个.csv文本文件中,当逗号被填在数据之间时,它就变成了一个有行和列的表格。
因此,将一个带有随机值的文件变成一个有意义的表格的过程被称为定界。
定界一般由逗号完成,但在某些情况下,也可以用运算符、标点符号以及特殊字符完成。
现在让我们来了解什么是 read_csv() 函数以及它是如何工作的。
使用Pandas的read_csv()方法
这个 Pandas 函数用于读取(.csv)文件。但你也可以识别逗号以外的定界符。这个功能使 read_csv 成为一个非常方便的工具,因为有了它,读取任何分隔符的 .csv 文件都可以变得非常容易。
让我们看一段工作代码,了解如何调用 read_csv 函数来读取 .csv 文件。我们有一个预先准备好的.csv文件,其中包含了一些汽车公司的汽车数据,它被命名为'Car_sales.csv'。
示例代码
import pandas as pd
CarData = pd.read_csv('Car_sales.csv')
在上面的代码中,我们初始化了一个名为'CarData'的变量,然后用它来存储'Car_sales.csv'中的所有值。.csv 文件中的值是以逗号分隔的,所以我们不需要在 read_csv 参数中向编译器指定更多的迭代。
read_csv 函数允许从一个很大的参数列表中选择,然后在必要时或临时使用它。只有一个参数是必须使用的,那就是指定文件名或文件路径。(注意:当重新创建上述代码时,你需要提到文件路径,因为文件名只能在Python .txt文件和.csv文件都在同一目录下时使用)。
用 read_csv() 使用自定义定界符
现在让我们来学习如何用 read_csv() 函数使用自定义定界符。我们将向你展示如何使用不同的常用定界符来读取 CSV 文件。你可以根据你使用的文件类型,用任何自定义定界符来替换这些定界符。
1.分隔符
正如我们所知,有很多特殊的字符可以用作分隔符,read_csv提供了一个参数'sep',指示编译器将逗号以外的字符作为分隔符。让我们了解如何使用它。
假设我们有一个包含内容的数据库,文件名为'Book1.csv'。
Name;Age;Grade
Jay;18;12
Shiv;18;12
Abin;16;10
Shweta;14;9
Shreya;10;5
现在,如果我们按照传统的规范,那么使用:
import pandas as pd
df = pd.read_csv('Book1.csv')
print(df)
但是,如果我们在 read_csv 语法中加入'sep',最终的结果就会改变。
代码
import pandas as pd
df = pd.read_csv('Book1.csv', sep=';')
print(df)
2.垂直条分隔符
如果一个文件是用竖条分隔的,而不是用分号或逗号,那么就可以用下面的语法来读取该文件。
import pandas as pd
df = pd.read_csv('Book1.csv', sep='|')
print(df)
3.冒号分界线
以类似的方式,如果一个文件是用冒号分隔的,那么我们将使用该语法。
import pandas as pd
df = pd.read_csv('Book1.csv', sep=':')
print(df)
结论
定界是.csv文件的一个非常重要的功能,很多.csv文件都需要定界。本文解释了所有可能的定界方式,使你掌握了这些概念。
我们从最基础的部分开始,解释了Pandas和CSV的情况,然后我们开始讨论划界以及如何划界。我们还了解了不同种类的定界符,如分号、逗号、竖条和冒号。
我希望这篇文章能帮助你轻松学习这些概念。