Python数据分析于挖掘常用库

85 阅读2分钟

pandas

pandas是用来处理DataFrame和Series等数据结构,进行数据操作、分析和可视化。

import pandas as pd 

numpy

numpy是Python中用于大规模数值计算的重要库,它提供了高性能的多维数组对象和工具,用于处理数组。如果您需要进行数学运算、统计分析或者与数组相关的操作.

import numpy as np

matplotlib.pyplot

matplotlib.pyplot是Python中最常用的绘图库Matplotlib的一部分,它提供了一套和MATLAB类似的绘图API,非常适合用来绘制各种静态、动态、交互式的图表。

import math import matplotlib.pyplot as plt 

seaborn

Seaborn是基于Matplotlib的数据可视化库,它提供了一种高度交互式界面用于绘制统计图形。Seaborn特别擅长于数据分析和统计图形的绘制,如热力图、jointplot、violin plots以及更复杂的网格布局图形等。

import seaborn as sns

warnings

通过warnings.filterwarnings('ignore')这行代码,Python将会忽略所有的警告信息。这对于运行可能产生大量警告信息的代码段特别有用,比如在数据分析或使用某些库功能时,如果这些警告不是致命错误且您确定可以安全忽略,这样的做法可以让输出更加整洁,专注于重要的信息。

import warnings 
warnings.filterwarnings('ignore')

sklearn

train_test_split函数来自sklearn.model_selection模块,这个函数用于将数据集切分为训练集和测试集。 LinearRegression类来自sklearn.linear_model模块,该类实现了线性回归算法,常用于解决回归问题。 mean_squared_error函数来自sklearn.metrics模块,它用于计算预测值与真实值之间的均方误差,是评估回归模型性能的一个常用指标。

from sklearn.model_selection 
import train_test_split from sklearn.linear_model 
import LinearRegression from sklearn.metrics import mean_squared_error