数据分析的开始--Pandas基础

148 阅读2分钟

概述

今天把《hands-on-data-analysis》这个项目的第一部分完成了,主要就是教一些pandas库的基础,我们用的是kaggle上泰坦尼克号的数据,这一部分我们完成了数据的导入,数据的保存,数据的筛选,以及一些简单的数据运算等等,还没到我所期待的数据可视化的过程。当我回看这些内容我才发现原来通过今天的努力其实学到的东西并不多,OK,那下面我们来看看今天到底学了哪些东西。

编程语言部分

写在前面:你需要用到jupyter noteboook,还有numpy,pandas库

  • 数据的导入: pd.read_csv('你的数据链接')
  • 数据的保存: df.to_csv('名字.csv')
    当然这里的导入和保存都是CSV文件,你如果想弄别的格式也可以比如读Excel表,那么就是read_excel。
  • 数据的分块:chunksize=number
  • 数据的基础信息:df.info()
  • 数据的空值判断:df.isnull()
  • 数据的删除:del或者drop
  • 数据的筛选:df[df["Age"]<10]
  • 数据的运算:a+b,c-d
  • 数据的排序:
    • 让行索引升序排序frame.sort_index()
    • 让列索引升序排序frame.sort_index(axis=1)
    • 让行索引降序排序frame.sort_index(ascending=False)
    • 让列索引降序排序frame.sort_index(axis=1, ascending=False)
    • 让任选两列数据同时降序排序frame.sort_values(by=['a','c'], ascending=False)
  • 数据的描写性统计信息:df.describe()

总结

总的来说,可能花的时间有点多了,应该可以快一点完成的。不过我是边看视频边完成代码的,可能是学习的方式问题,这点可能后面要改进一下,不过亲手敲还是有比较大的收获的,毕竟自己写的才是自己的。好吧,今天的笔记就是这样了,附上我的代码里面可能编程语言的部分更详细一点。

HeteroCat-blog/hands-on-data-analysis at main · HeteroCat/HeteroCat-blog (github.com)