用户数据分析与最佳实践 | 青训营笔记

77 阅读3分钟

这是我参与「第四届青训营 」笔记创作活动的第15天

1. 机器学习概览

1.1. 为什么要机器学习

  • 人工智能时代已经到来
    • 个性化推荐
    • 机器翻译
    • 人脸识别
    • ....
  • 大数据成为热议的内容
    • 数据多
    • 产生快
    • 形式杂
    • 组织乱
  • 解决实际的业务决策问题
    • 数据价值

1.2. 什么是机器学习

  • 机器学习就是把无序的数据转换为有用的信息
  • 从数据中自动分析获得模型,并利用模型对未知数据进行预测

标准流程

image.png

1.3. 机器学习算法有哪些

机器学习有非常多的种类及相应的算法,主要可以分成三大类

  • 监督/非监督学习 -- 取决于训练是否需要人类的监督
  • 批量/在线学习 -- 取决于系统是否能持续地从数据流中学习并更新
  • 基于实践/模型学习 -- 取决于系统是直接吧新数据与旧数据比较,还是通过建模来预测

1.4. 机器学习的挑战有哪些

  • 在机器学习中,面临的挑战主要来自两大模块:糟糕的算法和糟糕的数据
    1. 算法的问题主要有一下两种
      1. 过拟合(Overfitting)
      2. 欠拟合(Underfitt)
    2. 数据的问题具体表现为
      1. 训练数据太少
      2. 训练数据不具备代表性
      3. 数据本身质量很差
      4. 选取的特征没有相关性
  • 在大数据场景下,对资源的要求非常高,比如存储和算力

2. 特征工程

2.1. 概述

定义:特征工程时将原始数据转化成更好的表达问题本质的特征的过程 意义:数据和特征决定了机器学习的上线,而模型和算法只是逼近这个上限而已

创造新的特征是一件非常困难的事情,需要丰富的专业知识和大量的时间

机器学习的本质就是特征工程

2.2. 流程

image.png

image.png

2.3. Embedding 概览简介

image.png

2.4. Embedding 产生过程

image.png

image.png

2.5. Embedding 意义作用

  • 解决维度灾难,降低复杂度
  • 解决稀疏容易造成的梯度消失问题
  • 增加语义信息,能够很好地挖掘嵌入实体间的内部关联

2.6. Embedding 应用场景

  • 在深度学习网络中作为Embedding层
  • 作为训练的Embedding特征向量
  • Embedding可以直接作为推荐系统或计算广告系统的召回层或者找回方法之一

3. 聚类算法

3.1. 概览简介

image.png

  • 常用聚类特征
    • 人口属性:性别、年龄、地域等待
    • 常用指标:活跃度、时长、消费次数等等
    • 消费偏好:用户使用不同功能的时长占比、点击占比、每天进入该app的启动方式等等

image.png

3.2. 应用场景

  • 指标波动场景
  • 精细化运营
  • PMF(Product-Market Fit)

3.3. K-means

image.png

4. 聚类画像分析

4.1. 概览简介

image.png

4.2. 流程

image.png

4.3. 分析过程 - 样本选定

image.png

4.3. 分析过程 - 向量获取

image.png

4.3. 分析过程 - 聚类算法

image.png

4.3. 分析过程 - cluster level

image.png

4.3. 分析过程 - cluster level 可视化分析

image.png

image.png

image.png

4.3. 分析过程 - 人工标注

image.png

4.4. 应用场景

  1. 用户群体的兴趣偏好,帮助理解站内人群的结构
  2. 内容消费情况,帮助理解哪些内容更受欢迎
  3. 发现核心群体,基于其喜欢的内容,制定增长策略