本文已参与「新人创作礼」活动,一起开启掘金创作之路
NumPy
是一个基础的科学计算库,是众多数据库的基础
提供了多维数组对象的数据结构,可以用于数据量较大情况下的数组与矩阵的储存和计算,除此之外还提供了具有线形代数,傅里叶变换,和随机数生成的功能函数
运算速度非常快的一个数学库,它非常重视数组。它允许你在Python中进行向量和矩阵计算,并且由于许多底层函数实际上是用C编写的,因此你可以体验在原生Python中永远无法体验到的速度。
pandas
Pandas 是Python的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具,其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。经过多年不懈的努力,Pandas 离这个目标已经越来越近了。
Pandas 的主要数据结构是 Series(一维数据)与 DataFrame (二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。
Matplotlib
Matplotlib是一个Python 2D绘图库,可以绘制许多图形,包括直方图、折线图、饼图、散点图、函数图像2D、3D图形,甚至是动画
scikit-learn
scikit-learn是构建在NumPy、SciPy、Matplotlib 上的机器学习的库
包括多种分类,聚类,降维,模型选择,和预处理算法
支持向量机、最近邻,朴素贝叶斯,文档主题生成模型,特征选择,k均值。主成分分析,特征提取
SciPy
是一个更加全面的科学计算库,比NumPy多出几个功能,统计计算,最优化,数值积分,信号处理,图像处理等
NLTK
自然语言处理工具库
能够用于分类,分词,相似度计算,词干提取,语义推理
提供了50个语料库和词汇资源接口
statsmodels
从SciPy中独立出来的一个模块同统计学计算库,
主要功能包括线性回归,方差分析,时间序列分析,统计学分析
Jupyter
Jupyter是一个交互式的数据科学与科学计算开发环境。