使用Pandas读取文本文件--简要参考

397 阅读4分钟

这篇文章是一个关于我们如何使用Python中的Pandas 库读取文本文件的简单教程。如今,文本文件有助于存储大量的原始信息。它们是访问某一特定信息的最简单的方法之一。它们可以容纳以下内容。

  1. 代码
  2. 原始信息
  3. 链接
  4. 消息和更多

因此,为了管理它,有一些工具和技术,通过它们我们可以很容易地提取我们需要的东西。其中之一就是通过计算机编程。让我们更详细地看看它是如何工作的。


使用Python Pandas读取文本文件的步骤

计算机中的一个文件可以存储不同数量的文件和扩展名。一般来说,文件是用来存储任何东西的信息的。所以,这没有具体的定义。但是,它们的扩展名可以说明很多问题。每个扩展名都定义了存储在其中的不同数据位。

例如,像python这样的特定编程语言的文件,其扩展名是.py。扩展名只是为了说明它是什么类型的文件以及它代表什么数据。

在windows中创建sample.txt文件

在windows中创建一个文本文件的过程非常简单。按照下面的步骤进行。

  1. 进入windows搜索栏,输入记事本。点击它。
  2. 它就会打开一个空白页。在那里,我们可以放入任何我们想要的文本或信息,并随时对其进行修改。
  3. 完成工作后,按Ctrl+S 或进入左上角的 "文件 "选项,点击 "保存 ",将文件保存在你想要的位置。

在潘达斯中读取文本文件

Pandas是Python中的一个库,涵盖了一些必要的数据。它主要在数据科学和机器学习领域使用**。**它是一个开源项目,就像Python一样,任何人都可以为开发作出贡献。

转到这个 链接 获取更多信息。以下是它的用途。

  1. 数据分析
  2. 数据预处理
  3. 数据清洗
  4. 数据整理
  5. 从嵌入外部链接的文件中获取信息
  6. 从JSON、SQL、Excel文件格式中提取数据。

纯粹内置Python和其他支持性库,它为管理大量的数据提供了一个最佳的工作空间

Python Pandas中的文本文件方法

在数据科学中,我们获取的信息量是巨大的,所以它们都被封装在一个叫做数据集的文件中。这个数据集可能有成千上万的行和列,有各种输入。Pandas提供了更多的函数和方法来处理我们的数据。

  1. **read_excel() :**读取一个excel文件
  2. **read_csv() :**读取一个逗号分隔值文件
  3. info(): 显示所有列的信息
  4. isna(): 检查缺失的值
  5. sum() : 对各种数据类型的任何列的值进行求和
  6. **dropna():**删除一个列
  7. **head():**返回数据集的前5行。但是,可以根据我们在大括号内给出的数字来返回。

这些是主要的函数。要提前了解更多关于这个库的信息,请访问这个链接获取入门指南。

安装潘达斯

Python PIP命令,即**'package installer for python'**,使得在任何系统中安装Pandas变得容易。但是,这也有一些限制。但首先,进入命令提示符,并键入

python --version

确保你有Python 3.6或更高版本。

接下来输入pip install pandas,如下图所示。

pandas安装

使用Anaconda安装Pandas

注意:为此你需要在你的系统上安装Anaconda

Pandas已经预装在Anaconda中,但作为参考,我们将知道如何通过conda提示符添加新的库。

所以,打开Anaconda提示符,输入以下命令

conda install pandas

这样,我们确认这个库已经存在于conda环境中了。

导入Pandas

所以,在安装并获得一些粗略的信息后,是时候让我们更熟悉它了。首先要做的是导入这个库,并检查它是否被正确安装。

import pandas

如果它在安装后没有出现错误,那么就可以使用了。

在pandas中读取文件

本教程关于读取文件的内容非常简单。在这里我们将读取三种类型的文件。

  1. 逗号分隔值文件
  2. Excel文件
  3. 文本文件

读取每个文件都有专门的函数。正如前面所讨论的,它有read_excel()read_csv()。 环境 -"Jupyter Notebooks

在Python中读取一个Excel文件。

使用的样本文件**- "train.xlsx"**

import pandas as pd                       
data = pd.read_excel('train.xlsx')      
data.head()                                    

输出。

在Python中读取一个文本文件。

使用的样本文件 -"titanic.txt"

import pandas as pd
data_1 = read_csv('titanic.txt')
data_1.head()

输出。

总结

在这里,我们结束了这个话题。所以,通过这种方式,我们可以通过pandas读取一些文件,使我们的数据科学和机器学习之旅更加顺利。我认为这是开始使用pandas并在系统中配置它的最相关的方法。