这是我参与「第四届青训营」笔记创作活动的第5天

用户行为数据分析理论与最佳实践 | 青训营笔记

I 数据分析理论与实践基础篇

1. 用户数据分析简介

为什么要做用户数据分析

2. 数据分析的各个环节

数据分析全景图

指标体系

指标体系： 结合业务战略目标和业务场景，系统化梳理构建的指标集合。

手游业务指标体系示意图

搭建指标体系的价值

数据源

埋点简介

分析工具

常见分析工具

数据表与SQL

指标和维度

行为&事件分析

数据可视化

3. 数据分析流程&案例

分析流程和分析思路

数据分析流程：

数据分析思路：

分析案例

获取 Acquisition 激活 Activation

留存 Retention

收入 Revenue

数据分析中常见问题

上游数据质量不高

不验证就全量上线

优化策略短期有利而长期有损

过分挖掘用户信息，不注重用户隐私保护

II 数据分析理论与实践进阶篇

1. 机器学习

为什么要机器学习？

人工智能时代已经到来（个性化推荐、机器翻译、人脸识别......）

大数据成为热议的内容（数据多，产生快，形式杂，组织乱）

解决实际的业务决策问题（业务需要从大数据中挖掘数据背后隐藏的价值）

什么是机器学习？

机器学习是搭建一个能够自主从数据（或经验）中学习潜在规则的系统，把无序的数据转换为有用的信息

从数据中自动分析获得模型，并利用模型对未知数据进行预测

机器学习算法流程：获取数据、数据探测、特征工程、构建数据集、建模调参、模型评估

机器学习算法流程图

机器学习算法有哪些？

监督/分类：事先有标签

无监督/聚类：无标签

机器学习的挑战有哪些?

算法：

过拟合（Overfitting）：意味着算法可能过于复杂，不止学到了该学的规则，还将噪音、异常学到心里，使得无法很好预测新样本。
欠拟合（Underfitting）：意味着算法可能过于简单，没学到精髓。

数据：

数据太少
质量差
不具代表性
特征无相关性

大数据场景要求高算力和大存储

2. 特征工程

创造新的特征是一件十分困难的事情，需要丰富的专业知识和大量的时间。机器学习应用的本质基本上就是特征工程。
——Andrew Ng

概述

特征工程是将原始数据转化成更好的表达问题本质的特征的过程。

现实事物中具备着各种各样的信息，比如一张图片有着色彩、纹理、边界等各类型的信息数据。而特征工程要做的，就是将这些“原始数据”进行处理，从中构建出在此问题下，能代表该事物属性的“特征”。 数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。

特征工程包含以下几个过程：数据理解、数据预处理、特征构造、特征选择

特征工程流程

数据理解

数据是何种形式?

数据预处理

数据的质量，直接决定了模型的预测和泛化能力的好坏。它涉及很多因素，包括：准确性、完整性、一致性、时效性、可信性和解释性。真实数据中，我们拿到的数据可能包含了大量的缺失值，大量的噪音以及人工录入错误导致有异常点存在，非常不利于算法模型的训练。

因此需要进行数据预处理。

数据预处理主要步骤：数据清洗、数据集成、数据规约和数据变换等。

特征构造

特征构造是指从现有的数据中构造额外特征，这需要我们花大量的时间去研究真实的数据样本，思考问题的潜在形式和数据结构，同时能够更好地应用到预测模型中。

特征构造的操作分为两类：“聚合”和“转换”。

特征选择

在实际项目中，可能会有大量的特征可使用，有的特征携带的信息丰富，有的特征携带的信息有重叠，有的特征则属于无关特征，如果所有特征不经筛选地全部作为训练特征，经常会出现维度灾难问题，甚至会降低模型的准确性。因此，需要进行特征筛选，排除无效/冗余的特征，把有用的特征挑选出来作为模型的训练数据。

3. 聚类算法

聚类算法是机器学习中涉及对数据进行分组的一种算法。在给定的数据集中，我们可以通过聚类算法将其分成一些不同的组。在理论上，相同的组的数据之间有相似的属性或者是特征，不同组数据之间的属性或者特征相差就会比较大。聚类算法是一种非监督学习算法，并且作为一种常用的数据分析算法在很多领域上得到应用。

常用的聚类方法

K-means
DBSCAN
层次聚类；

这些常用聚类方法所依赖的常用聚类特征较为偏向统计学类特征。

常用聚类特征

人口属性：性别、年龄、地域等等；

常用指标：活跃度、时长、消费次数等等；

消费偏好：用户使用不同功能的时长占比、点击占比，每天进入该app的启动方式等等。

聚类所使用的统计特征无法反应用户的行为细节。因此，我们也就需要比统计特征更具有区分客户特性的特征。

用户行为数据分析理论与最佳实践 | 青训营笔记

用户行为数据分析理论与最佳实践 | 青训营笔记

I 数据分析理论与实践基础篇

1. 用户数据分析简介

2. 数据分析的各个环节

数据分析全景图

指标体系

数据源

分析工具

数据可视化

3. 数据分析流程&案例

分析流程和分析思路

分析案例

数据分析中常见问题

II 数据分析理论与实践进阶篇

1. 机器学习

为什么要机器学习？

什么是机器学习？

机器学习算法有哪些？

机器学习的挑战有哪些?

2. 特征工程

概述

特征工程流程

3. 聚类算法

常用的聚类方法

常用聚类特征

常用聚类方法各自的优点和缺点：

4. 聚类画像分析

概览

流程

分析过程

应用场景

用户行为数据分析理论与最佳实践 | 青训营笔记

用户行为数据分析理论与最佳实践 | 青训营笔记

I 数据分析理论与实践 基础篇

1. 用户数据分析简介

2. 数据分析的各个环节

数据分析全景图

指标体系

数据源

分析工具

数据可视化

3. 数据分析流程&案例

分析流程和分析思路

分析案例

数据分析中常见问题

II 数据分析理论与实践 进阶篇

1. 机器学习

为什么要机器学习？

什么是机器学习？

机器学习算法有哪些？

机器学习的挑战有哪些?

2. 特征工程

概述

特征工程流程

3. 聚类算法

常用的聚类方法

常用聚类特征

常用聚类方法各自的优点和缺点：

4. 聚类画像分析

概览

流程

分析过程

应用场景

I 数据分析理论与实践基础篇

II 数据分析理论与实践进阶篇