用户数据分析理论与最佳实践 | 青训营笔记

2022-08-21 135 阅读7分钟

这是我参与「第四届青训营」笔记创作活动的的第19天

今天是大数据专场基础班的第十九次课，主要内容是用户数据分析理论与最佳实践，主要分为下面两大部分（基础篇&进阶篇）

基础篇

一、为什么做行为数据分析

在企业竞争越来越激烈，获客成本越来越高的背景下，如何高效地理解用户需求和精细化运营是当前企业竞争的关键，而用户数据分析正是我们保持此竞争力的重要手段，我们通过数据来驱动用户增长、降低成本和提高收益

二、数据分析的各个环节

1. 数据分析全景图

2. 指标体系和指标分级

一句话介绍指标体系:结合业务战略目标和业务场景，系统化梳理构建的指标集合
我们构建的指标集合通常是分级的，以满足不同级别的人的数据使用需求

3. 手游业务指标体系示意

4. 搭建指标体系的价值

衡量经营状况
统一口径和统一认知
团队牵引
支撑后续制定目标和衡量目标
发现问题
定位问题

5. 数据分析的各个环节

5.1 埋点简介

埋点(数据)是什么?

埋点数据是指上报的记录着触发原因和状态信息的日志数据。按照上报方来看，可以划分为“服务端埋点”和“客户端埋点”按照上报形式，可以划分为“代码埋点”、“可视化全埋点”

埋点包含哪些要素?

who when where how what how_much
“张三”于“北京时间2022年1月2号12点整”在“游戏商城"用“xx支付”的形式“充值”了“500元”钻石。

在哪里埋点呢?

在你要做数据分析的环节来埋点

5.2 数据表与SQL

表的基本构成:表名、表字段、表字段类型等
SQL:结构化查询语言，用来操作表的语言。细分为DDIL(数据定义语言)和DML(数据操纵语言)等

5.3 指标和维度

指标是数据的量化统计，维度是数据分组的方式

三、数据分析的流程和案例

1. 分析流程

2. 分析思路

3. 案例

3.1 案例-Acquisition 获取

3.2 案例-Activation激活

3.3 案例-Retention留存

3.4 案例-Revenue收入

4. 数据分析常见的问题

上游数据质量不高
不验证就全量上线
优化策略短期有利而长期有损
过分挖掘用户信息，不注重用户隐私保护

进阶篇

一、机器学习概览

1. 为什么要机器学习?

人工智能时代已经到来
- 个性化推荐
- 机器翻译
- 人脸识别
大数据成为热议的内容
- 数据多
- 产生快
- 形式杂
- 组织乱
解决实际的业务决策问题
- 数据价值

2. 什么是机器学习?

机器学习就是把无序的数据转换为有用的信息
从数据中自动分析获得模型，并利用模型对未知数据进行预测

3. 机器学习算法有哪些?

机器学习有非常多的种类及相应的算法，主要可以分成三大类:

监督/非监督学习--取决于训练是否需要人类的监督
批量/在线学习--取决于系统是否能持续地从数据流中学习并更新
基于实例/模型学习--取决于系统是直接把新数据与旧数据比较，还是通过建模来预测

4. 机器学习的挑战有哪些?

在机器学习中，面临的挑战主要来自两大模块:糟糕的算法和糟糕的数据

算法的问题主要有以下两种:
1. 过拟合(Overfitting)
2. 欠拟合(Underfitting)
数据的问题具体表现为:
1. 训练数据太少
2. 训练数据不具备代表性
3. 数据本身质量很差
4. 选取的特征没有相关性

在大数据场景下，对资源的要求非常高，比如存储和算力

二、特征工程

1. 概述

定义:特征工程是将原始数据转化成更好的表达问题本质的特征的过程
意义:数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已

2. 流程

3. Embedding

3.1 Embedding概览简介

Embedding，即嵌入，起先源自于NLP领域，称为「词嵌入(word embedding) 」，主要是利用背景信息构建词汇的分布式表示，最终可以得到一种词的向量化表达，即用一个抽象的稠密向量来表征一个词
直观上看embedding相当于是对oneHot做了平滑，而oneHot相当于是对embedding 做了maxpooling

3.2 Embedding产生过程

3.3 Embedding意义作用

解决维度灾难，降低复杂度
解决稀疏容易造成的梯度消失的问题
增加语义信息，能够很好地挖掘嵌入实体间的内部关联

3.4 Embedding应用场景

在深度学习网络中作为Embedding层
作为预训练的Embedding 特征向量
Embedding可以直接作为推荐系统或计算广告系统的召回层或者召回方法之一

三、聚类算法

1. 概览简介

聚类算法是一种无监督的机器学习算法。在给定的数据集中，我们可以通过聚类算法将具有相似特征的数据分成一组，不相似特征的数据分成不同组。
K-means
DBSCAN
层次聚类

常用聚类特征:
- 人口属性:性别、年龄、地域等等
- 常用指标:活跃度、时长、消费次数等等
- 消费偏好:用户使用不同功能的时长占比、点击占比，每天进入该app的启动方式等等

2. 应用场景

指标波动场景
精细化运营
PMF (Product-Market Fit)

3. K-means

首先，我们确定要聚类的数量，并随机初始化它们各自的中心点
通过计算当前点与每个簇中心之间的距离，将每个数据点归到与之距离最近的中心的簇中
基于迭代后的结果，计算每一簇内，所有点的平均值，作为新簇中心
迭代重复这些步骤，或者直到簇中心在迭代之间变化不大

四、聚类画像分析

1. 概览简介

一个基于聚类的用户画像分析工具，以对用户群体进行标注及定位
- 洞察群体用户在站内的消费、投稿内容生态情况
- 研究用户与内容的关系和演变，理解业务增长的变化，制定用户与内容的增长策略

2. 流程

3. 分析过程

3.1 分析过程–样本选定

3.2 分析过程–向量获取

选择Embedding作为聚类算法特征的依据:
- 具有用户行为的语义特征，能学习到用户行为数据之间的关联
- 离线分析用到线上推荐特征，可作为线上推荐效果的debug工具，反映其效果好坏

3.3 分析过程–聚类算法

选择K-means算法作为分群的依据:
- 用户推荐向量满足凸优化函数求解问题
- 算法的复杂度、数据量、以及机器资源的trade-off
- 可理解性和算法稳定性

3.4 分析过程-cluster level可视化分析

核心指标层面可分为:
- 定性指标:从内容角度理解cluster人群偏好的兴趣，比如Top播放视频、Top 收藏视频、投稿的随机抽样、词云、头像等
- 定量指标:从数量角度理解cluster人群的具体表现，优劣情况，比如年龄/性别/操作系统的数量分布，视频播放次数、视频完播次数、分享/评论/点赞/收藏率、活跃天数、留存率等

4. 应用场景

用户群体的兴趣偏好，帮助理解站内人群的结构
内容消费情况，帮助理解哪些内容更受欢迎
发现核心群体，基于其喜欢的内容，制定增长策略

引用参考

内容主要参考了郭方超老师和邓存彬老师在「用户数据分析理论与最佳实践」课程里所教授的内容，同时也参考了学员手册里第一节的内容，图片来自于老师的PPT，链接如下：