python机器学习笔记

146 阅读2分钟

预先准备

使用框架:sklearn,numpy,pandas,xgboost,lightbm,catboost

可以使用pip或者conda安装

1、机器学习能干什么

  • 分类
  • 聚类
  • 拟合
  • etc...

2、机器学习的步骤

从上到下笼统的展示了机器学习的步骤

  • 数据探索
    • 数据获取
    • 数据查看
    • 数据分类
    • 数据可视化
  • 特征工程
    • 数据预处理
    • 特征选择
    • 特征降维
  • 模型构建
    • 模型选择
    • 模型优化
    • 模型评估

2.1、数据探索(Exploratory Data Analysis EDA)

EDA 就是利用各种技术手段(大部分都是利用数据可视化) 探索数据内部结构和规律的一种数据分析方法和理念。

目的是尽可能是洞察数据集、发现数据的内部结构、 提取重要的特征、检测异常值、检验基本假设、建立初步的模型。

2.1.1、读取数据

用pandas、numpy等工具从csv,txt等格式中将数据读入

2.1.2、查看数据

  • 基本信息
  • 数据类型
  • 异常值
  • 缺失值
  • 统计信息
  • etc...

2.1.3、数据分类

  • 结构化数据
    • 时间
    • 类型
    • 数值
  • 非结构化数据
    • 文本
    • 图片
    • 视频

2.1.4、数据可视化

通过可视化手段可以帮助选择模型

  • 箱型图
  • 扇形图
  • 热力图
  • 条形图
  • 直方图
  • etc..

2.2、特征工程

2.2.1、特征工程的重要性

  • 选对模型有用的特征,让模型达到尽可能大的性能(准确率)
  • 剔除掉无用特征,减少模型的过拟合,增加模型泛化能力
  • 对有用特征做相应变化处理,减少模型复杂性,增加模型的性能
  • 特征工程出现在机器学习工作流程的最初阶段。 特性工程是决定结果成败的最关键和决定性的因素

2.2.2、数据预处理

  • 将缺失值,异常值等删除或用平均数,中位数等代替
  • 将数据转化为计算机能够识别的类型
  • 对数据进行归一化、标准化等处理
  • etc..

2.2.3、特征

  • 匿名特征
  • 分类特征
  • 数值特征
  • 时间特征
  • etc

2.2.4、特征选择

根据数据和模型选择合适的特征


未完待续