数据分析----常用的库和工具

122 阅读2分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路

NumPy

是一个基础的科学计算库,是众多数据库的基础

提供了多维数组对象的数据结构,可以用于数据量较大情况下的数组与矩阵的储存和计算,除此之外还提供了具有线形代数,傅里叶变换,和随机数生成的功能函数

运算速度非常快的一个数学库,它非常重视数组。它允许你在Python中进行向量和矩阵计算,并且由于许多底层函数实际上是用C编写的,因此你可以体验在原生Python中永远无法体验到的速度。

pandas

Pandas 是Python的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具,其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。经过多年不懈的努力,Pandas 离这个目标已经越来越近了。

Pandas 的主要数据结构是 Series(一维数据)与 DataFrame (二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。

Matplotlib

Matplotlib是一个Python 2D绘图库,可以绘制许多图形,包括直方图、折线图、饼图、散点图、函数图像2D、3D图形,甚至是动画

scikit-learn

scikit-learn是构建在NumPy、SciPy、Matplotlib 上的机器学习的库

包括多种分类,聚类,降维,模型选择,和预处理算法

支持向量机、最近邻,朴素贝叶斯,文档主题生成模型,特征选择,k均值。主成分分析,特征提取

SciPy

是一个更加全面的科学计算库,比NumPy多出几个功能,统计计算,最优化,数值积分,信号处理,图像处理等

NLTK

自然语言处理工具库

能够用于分类,分词,相似度计算,词干提取,语义推理

提供了50个语料库和词汇资源接口

statsmodels

从SciPy中独立出来的一个模块同统计学计算库,

主要功能包括线性回归,方差分析,时间序列分析,统计学分析

Jupyter

Jupyter是一个交互式的数据科学与科学计算开发环境。