行为数据分析理论与最佳实践 | 青训营笔记

89 阅读5分钟

这是我参与「第四届青训营」笔记创作活动的的第19天,以下是我的课堂笔记。 本次课程主要分为七个大板块:
1.为什么做行为数据分析
2.数据分析的各个环节
3.数据分析的流程和案例
4.机器学习概览
5.特征工程
6.聚类算法
7.聚类画像分析

1.为什么做行为数据分析

1.1为什么要做用户数据分析

在企业竞争越来越激烈,获客成本越来越高的背景下,如何高效地理解用户需求和精细化运营是当前 企业竞争的关键,而用户数据分析正是我们保持此竞争力的重要手段,我们通过数据来驱动用户增长、降 低成本和提高收益。

2.数据分析的各个环节

2.1数据分析全景图

image.png

2.2指标体系和指标分级

一句话介绍指标体系:结合业务战略目标和业务场景,系统化梳理构建的指标集合。 我们构建的指标集合通常是分级的,以满足不同级别的人的数据使用需求。

2.3 手游业务指标体系示意

image.png

2.4搭建指标体系的价值

·衡量经营状况
·统一口径和统一认知
·团队牵引
·支撑后续制定目标和衡量目标
·发现问题
·定位问题

2.5数据分析的各个环节

image.png

3.数据分析的流程和案例

3.1分析流程

image.png

3.2分析思路

image.png

3.3数据分析常见的问题

. 上游数据质量不高
· 不验证就全量上线
· 优化策略短期有利而长期有损
· 过分挖掘用户信息,不注重用户隐私保护

4.机器学习概览

4.1什么是机器学习

·机器学习就是把无序的数据转换为有用的信息
·从数据中自动分析获得模型,并利用模型对未知数据进行预测

image.png

4.2 机器学习算法有哪些?

机器学习有非常多的种类及相应的算法,主要可以分成三大类︰

·监督/月非监督学习--取决于训练是否需要人类的监督
·批量/在线学习--取决于系统是否能持续地从数据流中学习并更新
·基于实例/模型学习--取决于系统是直接把新数据与旧数据比较,还是通过建模来预测

4.3 机器学习的挑战有哪些?

在机器学习中,面临的挑战主要来自两大模块:糟糕的算法和糟糕的数据。

  • 算法的问题主要有以下两种︰
    1.过拟合(Overfitting )
    2.欠拟合( Underfitting )

  • 数据的问题具体表现为︰ 1.训练数据太少

  1. 训练数据不具备代表性
  2. 数据本身质量很差
  3. 选取的特征没有相关性

在大数据场景下,对资源的要求非常高,比如存储和算力。

5.特征工程

5.1概述

定义: 特征工程是将原始数据转化成更好的表达问题本质的特征的过程。
意义:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。创造新的特征是一件非常困难的事情,需要丰富的专业知识和大量的时间。 机器学习的本质本质就是特征工程。
-- Andrew Ng

5.2 流程

image.png

image.png

5.3 Embedding概览简介

  • Embedding,即嵌入,起先源自于NLP领域,称为「词嵌入(word embedding ) 」,主要是利用背景信息构建词汇的分布式表示,最终可以得到一种词的向量化表达,即用一个抽象的稠密向量来表征一个词。
  • 直观上看embedding相当于是对oneHot做了平滑,而oneHot相当于是对embedding做了maxpooling。

image.png

5.4 Embedding产生过程

image.png

image.png

5.5 Embedding意义作用

√ 解决维度灾难,降低复杂度
√ 解决稀疏容易造成的梯度消失的问题
√ 增加语义信息,能够很好地挖掘嵌入实体间的内部关联

5.6 Embedding应用场景

√ 在深度学习网络中作为Embedding层
√ 作为预训练的Embedding特征向量
√ Embedding 可以直接作为推荐系统或计算广告系统的召回层或者召回方法之一

6.聚类算法

6.1 概览简介

聚类算法是一种无监督的机器学习算法。在给定的数据集中,我们可以通过聚类算法将具有相似特征的数据分成一组,不相似特征的数据分成不同组。
√ K-means
√ DBSCAN
√ 层次聚类

  • 常用聚类特征:
    ·人口属性︰性别、年龄、地域等等
    ·常用指标:活跃度、时长、消费次数等等
    ·消费偏好:用户使用不同功能的时长占比、点击占比,每天进入该app的启动方式等等

image.png

6.2应用场景

√指标波动场景
√精细化运营
√PMF ( Product-Market Fit )

6.3 K-means

1.首先,我们确定要聚类的数量,并随机初始化它们各自的中心点。
2.通过计算当前点与每个簇中心之间的距离,将每个数据点归到与之距离最近的中心的簇中。
3.基于迭代后的结果,计算每一簇内,所有点的平均值,作为新簇中心。
4.迭代重复这些步骤,或者直到簇中心在迭代之间变化不大。

image.png

image.png

7.聚类画像分析

7.1概览简介

一个基于聚类的用户画像分析工具,以对用户群体进行标注及定位\

  • 洞察群体用户在站内的消费,投稿内容生态情况
  • 研究用户与内容的关系和演变,理解业务增长的变化,制定用户与内容的增长策略。

7.2流程

image.png

7.3 应用场景

1.用户群体的兴趣偏好,帮助理解站内人群的结构
2. 内容消费情况,帮助理解哪些内容更受欢迎
3.发现核心群体,基于其喜欢的内容,制定增长策略