用户行为数据分析理论与最佳实践 | 青训营笔记

127 阅读5分钟

这是我参与「第四届青训营 」笔记创作活动的第5天

用户行为数据分析理论与最佳实践 | 青训营笔记

I 数据分析理论与实践 基础篇

1. 用户数据分析简介

为什么要做用户数据分析

image.png

2. 数据分析的各个环节

数据分析全景图

image.png

指标体系

指标体系: 结合业务战略目标和业务场景,系统化梳理构建的指标集合。

手游业务指标体系示意图 image.png

搭建指标体系的价值

image.png

数据源

埋点简介

image.png

分析工具

常见分析工具

image.png 数据表与SQL

image.png 指标和维度

image.png 行为&事件分析

image.png

数据可视化

image.png

image.png

3. 数据分析流程&案例

分析流程和分析思路

数据分析流程:

image.png

数据分析思路: image.png

分析案例

获取 Acquisition image.png 激活 Activation

image.png 留存 Retention

image.png

收入 Revenue

image.png

数据分析中常见问题

  • 上游数据质量不高
  • 不验证就全量上线
  • 优化策略短期有利而长期有损
  • 过分挖掘用户信息,不注重用户隐私保护

II 数据分析理论与实践 进阶篇

1. 机器学习

为什么要机器学习?

image.png

  • 人工智能时代已经到来(个性化推荐、机器翻译、人脸识别......)
  • 大数据成为热议的内容(数据多,产生快,形式杂,组织乱)
  • 解决实际的业务决策问题(业务需要从大数据中挖掘数据背后隐藏的价值)

什么是机器学习?

  • 机器学习是搭建一个能够自主从数据(或经验)中学习潜在规则的系统,把无序的数据转换为有用的信息
  • 从数据中自动分析获得模型,并利用模型对未知数据进行预测

image.png

  • 机器学习算法流程:获取数据、数据探测、特征工程、构建数据集、建模调参、模型评估

机器学习算法流程图 image.png

机器学习算法有哪些?

image.png 监督/分类: 事先有标签

image.png 无监督/聚类无标签

image.png

机器学习的挑战有哪些?

image.png 算法:

  1. 过拟合(Overfitting):意味着算法可能过于复杂,不止学到了该学的规则,还将噪音、异常学到心里,使得无法很好预测新样本。
  2. 欠拟合(Underfitting):意味着算法可能过于简单,没学到精髓。

数据:

  1. 数据太少
  2. 质量差
  3. 不具代表性
  4. 特征无相关性

大数据场景要求高算力大存储

2. 特征工程

创造新的特征是一件十分困难的事情,需要丰富的专业知识和大量的时间。机器学习应用的本质基本上就是特征工程。
——Andrew Ng

概述

特征工程是将原始数据转化成更好的表达问题本质的特征的过程。

image.png

现实事物中具备着各种各样的信息,比如一张图片有着色彩、纹理、边界等各类型的信息数据。而特征工程要做的,就是将这些“原始数据”进行处理,从中构建出在此问题下,能代表该事物属性的“特征”。 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

image.png

特征工程包含以下几个过程:数据理解数据预处理、特征构造、特征选择

image.png

特征工程流程

image.png 数据理解

数据是何种形式?

image.png

数据预处理

数据的质量,直接决定了模型的预测和泛化能力的好坏。它涉及很多因素,包括:准确性、完整性、一致性、时效性、可信性和解释性。真实数据中,我们拿到的数据可能包含了大量的缺失值,大量的噪音以及人工录入错误导致有异常点存在,非常不利于算法模型的训练。

因此需要进行数据预处理。

  • 数据预处理主要步骤:数据清洗、数据集成、数据规约和数据变换等。

特征构造

特征构造是指从现有的数据中构造额外特征,这需要我们花大量的时间去研究真实的数据样本,思考问题的潜在形式和数据结构,同时能够更好地应用到预测模型中。

  • 特征构造的操作分为两类:“聚合”和“转换”。

特征选择

  • 在实际项目中,可能会有大量的特征可使用,有的特征携带的信息丰富,有的特征携带的信息有重叠,有的特征则属于无关特征,如果所有特征不经筛选地全部作为训练特征,经常会出现维度灾难问题,甚至会降低模型的准确性。因此,需要进行特征筛选,排除无效/冗余的特征,把有用的特征挑选出来作为模型的训练数据。

3. 聚类算法

聚类算法是机器学习中涉及对数据进行分组的一种算法。在给定的数据集中,我们可以通过聚类算法将其分成一些不同的组。在理论上,相同的组的数据之间有相似的属性或者是特征,不同组数据之间的属性或者特征相差就会比较大。聚类算法是一种非监督学习算法,并且作为一种常用的数据分析算法在很多领域上得到应用。

常用的聚类方法

  • K-means
  • DBSCAN
  • 层次聚类;

这些常用聚类方法所依赖的常用聚类特征较为偏向统计学类特征。

image.png

常用聚类特征

image.png

  • 人口属性:性别、年龄、地域等等;
  • 常用指标:活跃度、时长、消费次数等等;
  • 消费偏好:用户使用不同功能的时长占比、点击占比,每天进入该app的启动方式等等。

聚类所使用的统计特征无法反应用户的行为细节。因此,我们也就需要比统计特征更具有区分客户特性的特征。

常用聚类方法各自的优点和缺点:

image.png

4. 聚类画像分析

概览

image.png

流程

image.png

分析过程

样本选定 image.png 向量获取

image.png 聚类算法

image.png cluster level 可视化分析

image.png

image.png

image.png

image.png 人工标注 image.png

应用场景

image.png