这是我参与「第四届青训营 」笔记创作活动的第5天
用户行为数据分析理论与最佳实践 | 青训营笔记
I 数据分析理论与实践 基础篇
1. 用户数据分析简介
为什么要做用户数据分析
2. 数据分析的各个环节
数据分析全景图
指标体系
指标体系: 结合业务战略目标和业务场景,系统化梳理构建的指标集合。
手游业务指标体系示意图
搭建指标体系的价值
数据源
埋点简介
分析工具
常见分析工具
数据表与SQL
指标和维度
行为&事件分析
数据可视化
3. 数据分析流程&案例
分析流程和分析思路
数据分析流程:
数据分析思路:
分析案例
获取 Acquisition
激活 Activation
留存 Retention
收入 Revenue
数据分析中常见问题
- 上游数据质量不高
- 不验证就全量上线
- 优化策略短期有利而长期有损
- 过分挖掘用户信息,不注重用户隐私保护
II 数据分析理论与实践 进阶篇
1. 机器学习
为什么要机器学习?
- 人工智能时代已经到来(个性化推荐、机器翻译、人脸识别......)
- 大数据成为热议的内容(数据多,产生快,形式杂,组织乱)
- 解决实际的业务决策问题(业务需要从大数据中挖掘数据背后隐藏的价值)
什么是机器学习?
- 机器学习是搭建一个能够自主从数据(或经验)中学习潜在规则的系统,把无序的数据转换为有用的信息
- 从数据中自动分析获得模型,并利用模型对未知数据进行预测
- 机器学习算法流程:获取数据、数据探测、特征工程、构建数据集、建模调参、模型评估
机器学习算法流程图
机器学习算法有哪些?
监督/分类: 事先有标签
无监督/聚类:无标签
机器学习的挑战有哪些?
算法:
- 过拟合(Overfitting):意味着算法可能过于复杂,不止学到了该学的规则,还将噪音、异常学到心里,使得无法很好预测新样本。
- 欠拟合(Underfitting):意味着算法可能过于简单,没学到精髓。
数据:
- 数据太少
- 质量差
- 不具代表性
- 特征无相关性
大数据场景要求高算力和大存储
2. 特征工程
创造新的特征是一件十分困难的事情,需要丰富的专业知识和大量的时间。机器学习应用的本质基本上就是特征工程。
——Andrew Ng
概述
特征工程是将原始数据转化成更好的表达问题本质的特征的过程。
现实事物中具备着各种各样的信息,比如一张图片有着色彩、纹理、边界等各类型的信息数据。而特征工程要做的,就是将这些“原始数据”进行处理,从中构建出在此问题下,能代表该事物属性的“特征”。 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
特征工程包含以下几个过程:数据理解、数据预处理、特征构造、特征选择
特征工程流程
数据理解
数据是何种形式?
数据预处理
数据的质量,直接决定了模型的预测和泛化能力的好坏。它涉及很多因素,包括:准确性、完整性、一致性、时效性、可信性和解释性。真实数据中,我们拿到的数据可能包含了大量的缺失值,大量的噪音以及人工录入错误导致有异常点存在,非常不利于算法模型的训练。
因此需要进行数据预处理。
- 数据预处理主要步骤:数据清洗、数据集成、数据规约和数据变换等。
特征构造
特征构造是指从现有的数据中构造额外特征,这需要我们花大量的时间去研究真实的数据样本,思考问题的潜在形式和数据结构,同时能够更好地应用到预测模型中。
- 特征构造的操作分为两类:“聚合”和“转换”。
特征选择
- 在实际项目中,可能会有大量的特征可使用,有的特征携带的信息丰富,有的特征携带的信息有重叠,有的特征则属于无关特征,如果所有特征不经筛选地全部作为训练特征,经常会出现维度灾难问题,甚至会降低模型的准确性。因此,需要进行特征筛选,排除无效/冗余的特征,把有用的特征挑选出来作为模型的训练数据。
3. 聚类算法
聚类算法是机器学习中涉及对数据进行分组的一种算法。在给定的数据集中,我们可以通过聚类算法将其分成一些不同的组。在理论上,相同的组的数据之间有相似的属性或者是特征,不同组数据之间的属性或者特征相差就会比较大。聚类算法是一种非监督学习算法,并且作为一种常用的数据分析算法在很多领域上得到应用。
常用的聚类方法
- K-means
- DBSCAN
- 层次聚类;
这些常用聚类方法所依赖的常用聚类特征较为偏向统计学类特征。
常用聚类特征
- 人口属性:性别、年龄、地域等等;
- 常用指标:活跃度、时长、消费次数等等;
- 消费偏好:用户使用不同功能的时长占比、点击占比,每天进入该app的启动方式等等。
聚类所使用的统计特征无法反应用户的行为细节。因此,我们也就需要比统计特征更具有区分客户特性的特征。
常用聚类方法各自的优点和缺点:
4. 聚类画像分析
概览
流程
分析过程
样本选定
向量获取
聚类算法
cluster level 可视化分析
人工标注