机器学习中聚类算法的应用 | 青训营笔记

212 阅读5分钟

这是我参与[第四届青训营]笔记创作活动的第3天
今天主要学习用户分析理论于最佳实践的第二部分机器学习、特征工程和聚类算法,这是以前学习过的内容,主要是了解工作中的知识的运用。

机器学习

机器学习的基本理解

机器学习就是把无序的数据转换为有用的信息。
可以理解为从数据中自动分析获得模型,并利用模型对未知数据进行预测。

机器学习的流程

标准流程--(流程中比较多的还是对于数据集的处理,建模前的准备工作)

image.png

这个流程也是需要不断重复,主要是通过模型评估反复的调整前期的工作
其中数据探测:了解数据的基本情况,一般为看有没有空缺值,异常值,以及平均值峰值等。

机器学习的分类

  • 监督和非监督学习
    取决于训练是否需要人类的监督
  • 批量和在线学习
    取决于系统是否能持续的从数据流中学习并更新
  • 基于实例的模型学习
    取决于系统是直接把新数据与旧数据比较,还是通过建模来预测

机器学习的挑战

算法问题:

  • 过拟合:模型学的太好了,模型过于复杂。
  • 欠拟合:算法过于简单,学的不好。
    数据问题:(数据的质量问题)
  • 训练数据太小
  • 训练数据不具备代表性
  • 数据本身质量很差
  • 选取的特征没有相关性

特征工程

定义

  • 定义:特征工程是将原始数据转化成更好的表达问题本质的特征的过程。
  • 意义:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

特征工程的内容

数据理解--》数据预处理--》特征构造--》特征选择

特征工程的流程

  1. 数据理解
    • 结构化和非结构化
      结构化:表格
      非结构化:日志,报文
    • 定量和定性 定量:量化的数据
      定性:通过内容、视频、音乐等非结构化数据帮助理解
  2. 数据预处理
    • 衡量数据质量
      准确性、完整性、一致性、时效性、可信性、解释性
    • 主要步骤
      • 数据清洗
        缺失值
        异常值
        噪声
      • 数据集成 实体识别 冗余 数据值冲突
      • 数据规约 维度规约 维度变换
      • 数据变换 规范化 离散化 稀疏化
  3. 特征构造
    • 聚合
    • 转换
  4. 特征选择
    • Fliter方法(过滤式)
      其主要思想是:对每一维的特征“打分”,即给每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权重排序。
      主要的方法有:

      • Chi-squared test(卡方检验)
      • information gain(信息增益)
      • correlation coefficient scores(相关系数)
    • Wrapper方法(封装式)
      其主要思想是:将子集的选择看作是一个搜索寻优问题,生成不同的组合,对组合进行评价,再与其他的组合进行比较。这样就将子集的选择看作是一个是一个优化问题,这里有很多的优化算法可以解决,尤其是一些启发式的优化算法,如GA,PSO,DE,ABC等。

      主要方法有:

      • 递归特征消除算法
    • Embedded方法(嵌入式)
      其主要思想是:在模型既定的情况下学习出对提高模型准确性最好的属性。这句话并不是很好理解,其实是讲在确定模型的过程中,挑选出那些对模型的训练有重要意义的属性。

      简单易学的机器学习算法

      • 岭回归(Ridge Regression)”,岭回归就是在基本线性回归的过程中加入了正则项

聚类算法

含义

聚类算法是一种无监督的机器学习算法。对比分类算法一般是有监督的。在给定的数据集中,可以通过聚类将具有相似特征的数据分成依序,不相似的特征的数据分为一组。

常用方法

image.png

常用的聚类特征

人口属性:性别、年龄、地域等
常用指标:活跃度、时长、消费次数等等
消费偏好:用户使用不同功能的时长占比、点击占比,每天进入该APP的启动方式等。
聚类的指标还需要根据收集到的数据以及具体解决的问题来考虑。

应用场景

  • 指标波动场景
  • 精细化运营
  • PMF :给用户推荐个性化用户

聚类画像分析

一个基于聚类的用户画像分析工具,以对用户群体进行标注及定位
具体案例 image.png

  • 向量获取
    学习用户行为数据之间的关联,使用线上推荐特征,反应效果好坏
  • 聚类算法
    选择k-Means
  • 可视化分析
    从内容角度和数量角度理解分类人员的偏好兴趣和具体表现
  • 人工标注
    对类别的划分进行刻画和描述

总结

在工作中有时也会遇到分类算法,比如预测房价,预测电信诈骗,以及风控模型等,分类算法也是机器学习中的主要内容之一。