这是我参与[第四届青训营]笔记创作活动的第3天
今天主要学习用户分析理论于最佳实践的第二部分机器学习、特征工程和聚类算法，这是以前学习过的内容，主要是了解工作中的知识的运用。

机器学习

机器学习的基本理解

机器学习就是把无序的数据转换为有用的信息。
可以理解为从数据中自动分析获得模型，并利用模型对未知数据进行预测。

机器学习的流程

标准流程--（流程中比较多的还是对于数据集的处理，建模前的准备工作）

这个流程也是需要不断重复，主要是通过模型评估反复的调整前期的工作
其中数据探测：了解数据的基本情况，一般为看有没有空缺值，异常值，以及平均值峰值等。

机器学习的分类

监督和非监督学习
取决于训练是否需要人类的监督
批量和在线学习
取决于系统是否能持续的从数据流中学习并更新
基于实例的模型学习
取决于系统是直接把新数据与旧数据比较，还是通过建模来预测

机器学习的挑战

算法问题：

过拟合：模型学的太好了，模型过于复杂。
欠拟合：算法过于简单，学的不好。
数据问题：（数据的质量问题）
训练数据太小
训练数据不具备代表性
数据本身质量很差
选取的特征没有相关性

特征工程

定义

定义：特征工程是将原始数据转化成更好的表达问题本质的特征的过程。
意义：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。

特征工程的内容

数据理解--》数据预处理--》特征构造--》特征选择

特征工程的流程

数据理解
- 结构化和非结构化
  结构化：表格
  非结构化：日志，报文
- 定量和定性定量：量化的数据
  定性：通过内容、视频、音乐等非结构化数据帮助理解
数据预处理
- 衡量数据质量
  准确性、完整性、一致性、时效性、可信性、解释性
- 主要步骤
  - 数据清洗
    缺失值
    异常值
    噪声
  - 数据集成实体识别冗余数据值冲突
  - 数据规约维度规约维度变换
  - 数据变换规范化离散化稀疏化
特征构造
- 聚合
- 转换
特征选择
- Fliter方法（过滤式）
  其主要思想是：对每一维的特征“打分”，即给每一维的特征赋予权重，这样的权重就代表着该维特征的重要性，然后依据权重排序。
  主要的方法有：
  - Chi-squared test(卡方检验)
  - information gain(信息增益)
  - correlation coefficient scores(相关系数)
- Wrapper方法（封装式）
  其主要思想是：将子集的选择看作是一个搜索寻优问题，生成不同的组合，对组合进行评价，再与其他的组合进行比较。这样就将子集的选择看作是一个是一个优化问题，这里有很多的优化算法可以解决，尤其是一些启发式的优化算法，如GA，PSO，DE，ABC等。
  
  主要方法有：
  - 递归特征消除算法
- Embedded方法（嵌入式）
  其主要思想是：在模型既定的情况下学习出对提高模型准确性最好的属性。这句话并不是很好理解，其实是讲在确定模型的过程中，挑选出那些对模型的训练有重要意义的属性。
  
  简单易学的机器学习算法
  - 岭回归(Ridge Regression)”，岭回归就是在基本线性回归的过程中加入了正则项。

聚类算法

含义

聚类算法是一种无监督的机器学习算法。对比分类算法一般是有监督的。在给定的数据集中，可以通过聚类将具有相似特征的数据分成依序，不相似的特征的数据分为一组。

常用方法

常用的聚类特征

人口属性：性别、年龄、地域等
常用指标：活跃度、时长、消费次数等等
消费偏好：用户使用不同功能的时长占比、点击占比，每天进入该APP的启动方式等。
聚类的指标还需要根据收集到的数据以及具体解决的问题来考虑。

应用场景

指标波动场景
精细化运营
PMF :给用户推荐个性化用户

聚类画像分析

一个基于聚类的用户画像分析工具，以对用户群体进行标注及定位
具体案例

向量获取
学习用户行为数据之间的关联，使用线上推荐特征，反应效果好坏
聚类算法
选择k-Means
可视化分析
从内容角度和数量角度理解分类人员的偏好兴趣和具体表现
人工标注
对类别的划分进行刻画和描述

总结

在工作中有时也会遇到分类算法，比如预测房价，预测电信诈骗，以及风控模型等，分类算法也是机器学习中的主要内容之一。

机器学习中聚类算法的应用 | 青训营笔记