Pandas 提供的数据结构
Pandas 是 Python 语言的一个扩展程序库,用于数据分析。
Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。
Pandas 名字衍生自术语 "panel data"(面板数据)和 "Python data analysis"(Python 数据分析)。
Pandas 一个强大的分析结构化数据的工具集,基础是 Numpy(提供高性能的矩阵运算)。
Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。
Pandas 可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。
Pandas 广泛应用在学术、金融、统计学等各个数据分析领域
Pandas 提供的数据结构
Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。
Series
Pandas Series 类似表格中的一个列(column),类似于一维数组,可以保存任何数据类型。
Series 由索引(index)和列组成,函数如下:
pandas.Series( data, index, dtype, name, copy)
DataFrame
构造函数:
DataFrame(data, index, columns, dtype, copy)
DataFrame.append
append方法介绍
DataFrame.append(other, ignore_index=False, verify_integrity=False, sort=None)
功能说明:
向dataframe对象中添加新的行;如果添加的列名不在dataframe对象中将会被当作新的列进行添加。
df = df.append({
'goods': 'pesi',
'quantity': 5,
'price': 2
}, ignore_index=True)
DataFrame、series、dict、list这样的数据结构 ignore_index默认值为False,如果为True则不使用index标签
to_excel方法介绍
DataFrame.to_excel(*excel_writer*, *sheet_name='Sheet1'* , *na_rep=''* , *float_format=None*, *columns=None*, *header=True*, *index=True*, *index_label=None*, *startrow=0*, *startcol=0*, *engine=None*, *merge_cells=True*, *encoding=None*, *inf_rep='inf'* , *verbose=True*, *freeze_panes=None*, *storage_options=None*)
将DataFrame的数据导出到Excel文件中。
import pandas as pd
df = pd.DataFrame({
'goods': ['coke cola', 'eggplant','condom'],
'quantity': [12, 3, 1],
'price': [20, 12, 80]
})
df.to_excel("./test.xlsx")