Python数据分析之Pandas读取csv

691 阅读3分钟

这是我参与11月更文挑战的第5天,活动详情查看:2021最后一次更文挑战

Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。

它是一种类似于一维数组的对象,是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对象。

DataFrame是Pandas中的一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型等),DataFrame即有行索引也有列索引,可以被看做是由Series组成的字典。

有以下员工的csv格式数据,文件名为employees.csv:

emp_no,birth_date,first_name,last_name,gender,hire_date
10001,1953-09-02,Georgi,Facello,M,1986-06-26
10002,1964-06-02,Bezalel,Simmel,F,1985-11-21
10003,1959-12-03,Parto,Bamford,M,1986-08-28
10004,1954-05-01,Chirstian,Koblick,M,1986-12-01
10005,1955-01-21,Kyoichi,Maliniak,M,1989-09-12
10006,1953-04-20,Anneke,Preusig,F,1989-06-02
10007,1957-05-23,Tzvetan,Zielinski,F,1989-02-10
10008,1958-02-19,Saniya,Kalloufi,M,1994-09-15
10009,1952-04-19,Sumant,Peac,F,1985-02-18
10010,1963-06-01,Duangkaew,Piveteau,F,1989-08-24
10011,1972-02-29,Jiang,David,M,1990-02-20

读取csv文件:

import pandas as pd


data = pd.read_csv('./employees.csv')
print(type(data))
# <class 'pandas.core.frame.DataFrame'>

直接调用Pandas的read_csv方法即可,把文件路径传入即可。返回DataFrame对象。
所以,可以按照DataFrame对象的方法进行读取数据。

print(data)
print("按列索引读取数据")
print(data['emp_no'])

输出:

    emp_no  birth_date first_name  last_name gender   hire_date
0    10001  1953-09-02     Georgi    Facello      M  1986-06-26
1    10002  1964-06-02    Bezalel     Simmel      F  1985-11-21
2    10003  1959-12-03      Parto    Bamford      M  1986-08-28
3    10004  1954-05-01  Chirstian    Koblick      M  1986-12-01
4    10005  1955-01-21    Kyoichi   Maliniak      M  1989-09-12
5    10006  1953-04-20     Anneke    Preusig      F  1989-06-02
6    10007  1957-05-23    Tzvetan  Zielinski      F  1989-02-10
7    10008  1958-02-19     Saniya   Kalloufi      M  1994-09-15
8    10009  1952-04-19     Sumant       Peac      F  1985-02-18
9    10010  1963-06-01  Duangkaew   Piveteau      F  1989-08-24
10   10011  1972-02-29      Jiang      David      M  1990-02-20
按列索引读取数据
0     10001
1     10002
2     10003
3     10004
4     10005
5     10006
6     10007
7     10008
8     10009
9     10010
10    10011
Name: emp_no, dtype: int64