这篇文章是一个关于我们如何使用Python中的Pandas 库读取文本文件的简单教程。如今,文本文件有助于存储大量的原始信息。它们是访问某一特定信息的最简单的方法之一。它们可以容纳以下内容。
- 代码
- 原始信息
- 链接
- 消息和更多
因此,为了管理它,有一些工具和技术,通过它们我们可以很容易地提取我们需要的东西。其中之一就是通过计算机编程。让我们更详细地看看它是如何工作的。
使用Python Pandas读取文本文件的步骤
计算机中的一个文件可以存储不同数量的文件和扩展名。一般来说,文件是用来存储任何东西的信息的。所以,这没有具体的定义。但是,它们的扩展名可以说明很多问题。每个扩展名都定义了存储在其中的不同数据位。
例如,像python这样的特定编程语言的文件,其扩展名是.py。扩展名只是为了说明它是什么类型的文件以及它代表什么数据。
在windows中创建sample.txt文件
在windows中创建一个文本文件的过程非常简单。按照下面的步骤进行。
- 进入windows搜索栏,输入记事本。点击它。
- 它就会打开一个空白页。在那里,我们可以放入任何我们想要的文本或信息,并随时对其进行修改。
- 完成工作后,按Ctrl+S 或进入左上角的 "文件 "选项,点击 "保存 ",将文件保存在你想要的位置。
在潘达斯中读取文本文件
Pandas是Python中的一个库,涵盖了一些必要的数据。它主要在数据科学和机器学习领域使用**。**它是一个开源项目,就像Python一样,任何人都可以为开发作出贡献。
转到这个 链接 获取更多信息。以下是它的用途。
- 数据分析
- 数据预处理
- 数据清洗
- 数据整理
- 从嵌入外部链接的文件中获取信息
- 从JSON、SQL、Excel文件格式中提取数据。
纯粹内置Python和其他支持性库,它为管理大量的数据提供了一个最佳的工作空间
Python Pandas中的文本文件方法
在数据科学中,我们获取的信息量是巨大的,所以它们都被封装在一个叫做数据集的文件中。这个数据集可能有成千上万的行和列,有各种输入。Pandas提供了更多的函数和方法来处理我们的数据。
- **read_excel() :**读取一个excel文件
- **read_csv() :**读取一个逗号分隔值文件
- info(): 显示所有列的信息
- isna(): 检查缺失的值
- sum() : 对各种数据类型的任何列的值进行求和
- **dropna():**删除一个列
- **head():**返回数据集的前5行。但是,可以根据我们在大括号内给出的数字来返回。
这些是主要的函数。要提前了解更多关于这个库的信息,请访问这个链接获取入门指南。
安装潘达斯
Python PIP命令,即**'package installer for python'**,使得在任何系统中安装Pandas变得容易。但是,这也有一些限制。但首先,进入命令提示符,并键入
python --version
确保你有Python 3.6或更高版本。
接下来输入pip install pandas,如下图所示。
pandas安装
使用Anaconda安装Pandas
注意:为此你需要在你的系统上安装Anaconda。
Pandas已经预装在Anaconda中,但作为参考,我们将知道如何通过conda提示符添加新的库。
所以,打开Anaconda提示符,输入以下命令
conda install pandas
这样,我们确认这个库已经存在于conda环境中了。
导入Pandas
所以,在安装并获得一些粗略的信息后,是时候让我们更熟悉它了。首先要做的是导入这个库,并检查它是否被正确安装。
import pandas
如果它在安装后没有出现错误,那么就可以使用了。
在pandas中读取文件
本教程关于读取文件的内容非常简单。在这里我们将读取三种类型的文件。
- 逗号分隔值文件
- Excel文件
- 文本文件
读取每个文件都有专门的函数。正如前面所讨论的,它有read_excel()和read_csv()。 环境 -"Jupyter Notebooks
在Python中读取一个Excel文件。
使用的样本文件**- "train.xlsx"**
import pandas as pd
data = pd.read_excel('train.xlsx')
data.head()
输出。
在Python中读取一个文本文件。
使用的样本文件 -"titanic.txt"
import pandas as pd
data_1 = read_csv('titanic.txt')
data_1.head()
输出。
总结
在这里,我们结束了这个话题。所以,通过这种方式,我们可以通过pandas读取一些文件,使我们的数据科学和机器学习之旅更加顺利。我认为这是开始使用pandas并在系统中配置它的最相关的方法。