预先准备
使用框架:sklearn,numpy,pandas,xgboost,lightbm,catboost
可以使用pip或者conda安装
1、机器学习能干什么
- 分类
- 聚类
- 拟合
- etc...
2、机器学习的步骤
从上到下笼统的展示了机器学习的步骤
- 数据探索
- 数据获取
- 数据查看
- 数据分类
- 数据可视化
- 特征工程
- 数据预处理
- 特征选择
- 特征降维
- 模型构建
- 模型选择
- 模型优化
- 模型评估
2.1、数据探索(Exploratory Data Analysis EDA)
EDA 就是利用各种技术手段(大部分都是利用数据可视化) 探索数据内部结构和规律的一种数据分析方法和理念。
目的是尽可能是洞察数据集、发现数据的内部结构、 提取重要的特征、检测异常值、检验基本假设、建立初步的模型。
2.1.1、读取数据
用pandas、numpy等工具从csv,txt等格式中将数据读入
2.1.2、查看数据
- 基本信息
- 数据类型
- 异常值
- 缺失值
- 统计信息
- etc...
2.1.3、数据分类
- 结构化数据
- 时间
- 类型
- 数值
- 非结构化数据
- 文本
- 图片
- 视频
2.1.4、数据可视化
通过可视化手段可以帮助选择模型
- 箱型图
- 扇形图
- 热力图
- 条形图
- 直方图
- etc..
2.2、特征工程
2.2.1、特征工程的重要性
- 选对模型有用的特征,让模型达到尽可能大的性能(准确率)
- 剔除掉无用特征,减少模型的过拟合,增加模型泛化能力
- 对有用特征做相应变化处理,减少模型复杂性,增加模型的性能
- 特征工程出现在机器学习工作流程的最初阶段。 特性工程是决定结果成败的最关键和决定性的因素
2.2.2、数据预处理
- 将缺失值,异常值等删除或用平均数,中位数等代替
- 将数据转化为计算机能够识别的类型
- 对数据进行归一化、标准化等处理
- etc..
2.2.3、特征
- 匿名特征
- 分类特征
- 数值特征
- 时间特征
- etc
2.2.4、特征选择
根据数据和模型选择合适的特征
未完待续