这是我参与[第四届青训营]笔记创作活动的第3天
今天主要学习用户分析理论于最佳实践的第二部分机器学习、特征工程和聚类算法,这是以前学习过的内容,主要是了解工作中的知识的运用。
机器学习
机器学习的基本理解
机器学习就是把无序的数据转换为有用的信息。
可以理解为从数据中自动分析获得模型,并利用模型对未知数据进行预测。
机器学习的流程
标准流程--(流程中比较多的还是对于数据集的处理,建模前的准备工作)
这个流程也是需要不断重复,主要是通过模型评估反复的调整前期的工作
其中数据探测:了解数据的基本情况,一般为看有没有空缺值,异常值,以及平均值峰值等。
机器学习的分类
- 监督和非监督学习
取决于训练是否需要人类的监督 - 批量和在线学习
取决于系统是否能持续的从数据流中学习并更新 - 基于实例的模型学习
取决于系统是直接把新数据与旧数据比较,还是通过建模来预测
机器学习的挑战
算法问题:
- 过拟合:模型学的太好了,模型过于复杂。
- 欠拟合:算法过于简单,学的不好。
数据问题:(数据的质量问题) - 训练数据太小
- 训练数据不具备代表性
- 数据本身质量很差
- 选取的特征没有相关性
特征工程
定义
- 定义:特征工程是将原始数据转化成更好的表达问题本质的特征的过程。
- 意义:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
特征工程的内容
数据理解--》数据预处理--》特征构造--》特征选择
特征工程的流程
- 数据理解
- 结构化和非结构化
结构化:表格
非结构化:日志,报文 - 定量和定性
定量:量化的数据
定性:通过内容、视频、音乐等非结构化数据帮助理解
- 结构化和非结构化
- 数据预处理
- 衡量数据质量
准确性、完整性、一致性、时效性、可信性、解释性 - 主要步骤
- 数据清洗
缺失值
异常值
噪声 - 数据集成 实体识别 冗余 数据值冲突
- 数据规约 维度规约 维度变换
- 数据变换 规范化 离散化 稀疏化
- 数据清洗
- 衡量数据质量
- 特征构造
- 聚合
- 转换
- 特征选择
-
Fliter方法(过滤式)
其主要思想是:对每一维的特征“打分”,即给每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权重排序。
主要的方法有:- Chi-squared test(卡方检验)
- information gain(信息增益)
- correlation coefficient scores(相关系数)
-
Wrapper方法(封装式)
其主要思想是:将子集的选择看作是一个搜索寻优问题,生成不同的组合,对组合进行评价,再与其他的组合进行比较。这样就将子集的选择看作是一个是一个优化问题,这里有很多的优化算法可以解决,尤其是一些启发式的优化算法,如GA,PSO,DE,ABC等。主要方法有:
- 递归特征消除算法
-
Embedded方法(嵌入式)
其主要思想是:在模型既定的情况下学习出对提高模型准确性最好的属性。这句话并不是很好理解,其实是讲在确定模型的过程中,挑选出那些对模型的训练有重要意义的属性。简单易学的机器学习算法
- 岭回归(Ridge Regression)”,岭回归就是在基本线性回归的过程中加入了正则项。
-
聚类算法
含义
聚类算法是一种无监督的机器学习算法。对比分类算法一般是有监督的。在给定的数据集中,可以通过聚类将具有相似特征的数据分成依序,不相似的特征的数据分为一组。
常用方法
常用的聚类特征
人口属性:性别、年龄、地域等
常用指标:活跃度、时长、消费次数等等
消费偏好:用户使用不同功能的时长占比、点击占比,每天进入该APP的启动方式等。
聚类的指标还需要根据收集到的数据以及具体解决的问题来考虑。
应用场景
- 指标波动场景
- 精细化运营
- PMF :给用户推荐个性化用户
聚类画像分析
一个基于聚类的用户画像分析工具,以对用户群体进行标注及定位
具体案例
- 向量获取
学习用户行为数据之间的关联,使用线上推荐特征,反应效果好坏 - 聚类算法
选择k-Means - 可视化分析
从内容角度和数量角度理解分类人员的偏好兴趣和具体表现 - 人工标注
对类别的划分进行刻画和描述
总结
在工作中有时也会遇到分类算法,比如预测房价,预测电信诈骗,以及风控模型等,分类算法也是机器学习中的主要内容之一。