前言: 并非详细介绍各种命令,只是以表格的形式记录学习过程中试过的一些简单命令,记录下来将来自己查阅方便。
简介
- pandas是Python数据分析模块,提供了大量能使我们快速便捷地处理数据的函数方法。
基本数据结构
- DataPrame:包含多个行和已命名的列。
- Series:单一列。每个series都有一个名称,dataPrame包含一个或者多个series。
基础命令
| 命令 | 功能 |
|---|---|
| import pandas as pd | python中导入pandas模块 |
| pd.Series(['San Francisco', 'San Jose', 'Sacramento']) | 构建 Series 对象 |
| city_names = pd.Series(['San Francisco', 'San Jose', 'Sacramento']) population = pd.Series([852469, 1015785, 485199]) housing_dataframe = pd.DataFrame({ 'City name': city_names, 'Population': population }) |
创建DataFrame对象 |
| housing_dataframe['City name'] housing_dataframe['City name'][1] |
访问数据,类似python的dict、list访问方式 |
| housing_dataframe = pd.read_csv("california_housing_train.csv", sep=",") | 导入外部csv文件创建dataframe文件 |
| housing_dataframe.describe() | 显示一些统计信息 |
| housing_dataframe.head() | 显示前几列数据 |
| import numpy as np np.log(population) |
pandas Series 可用作大多数 NumPy 函数的参数 |
| cities['Area square miles'] = pd.Series([46.87, 176.53, 97.92]) | 给dataframe添加series |