用户数据分析理论与最佳实践 | 青训营笔记

98 阅读5分钟

用户数据分析理论与最佳实践 | 青训营笔记

这是我参与「第四届青训营 」笔记创作活动的的第18天,本篇笔记主要是关于第十八次大数据课程《用户数据分析理论与最佳实践》的课堂笔记


为什么要做用户数据分析

在企业竞争越来越激烈,获客成本越来越高的背景下,如何高效地优化产品和精细化投放运营是当前企业竞争的关键,而用户数据分析正是我们保持此竞争力的重要手段(难道还有别的手段?有,靠抄袭,靠砸钱),我们通过数据来驱动用户增长、降低成本和提高收益。

数据分析的各个环节

数据分析全景图:

image.png

指标体系:结合业务战略目标和业务场景,系统化梳理构建的指标集合。

手游业务指标体系示意: image.png

搭建指标体系的价值:

  • 衡量经营状况
  • 统一口径和统一认知
  • 团队牵引
  • 支撑后续制定目标和衡量目标
  • 发现问题
  • 定位问题

埋点:

  1. 埋点(数据)是什么? 埋点数据是指上报的记录着触发原因和状态信息的日志数据。按照上报方来看,可以划分为“服务端埋点”和“客户端埋点”按照。上报形式,可以划分为“代码埋点”、“可视化全埋点”。

  2. 埋点包含哪些要素? who when where how what how_much

  3. 在哪里埋点呢? 在你要做数据分析的环节来埋点。

分析工具

数据表与SQL

表的基本构成:表名、表字段、表字段类型等。

SQL:结构化查询语言,用来操作表的语言。细分为DDL(数据定义语言)和DML(数据操纵语言)等。

指标和维度

指标是数据的量化统计,维度是数据分组的方式。

行为分析-事件分析

行为分析工具包括很多模型,我们把用户日常最高频使用的功能进行了固化,用户只需在界面配置自己要分析的埋点、属性筛选和分组项,即可在几秒内查询出数据结果。

数据分析常见的问题

  • 上游数据质量不高
  • 不验证就全量上线
  • 优化策略短期有利而长期有损
  • 过分挖掘用户信息,不注重用户隐私保护

机器学习

什么是机器学习

  • 机器学习就是把无序的数据转换为有用的信息
  • 从数据中自动分析获得模型,并利用模型对未知数据进行预测、
  • 机器学习算法流程:获取数据、数据探测、特征工程、构建数据集、建模调参、模型评估

机器学习算法有哪些?

  • 监督非监督学习--取决于训练是否需要人类的监督
  • 批量/在线学习--取决于系统是否能持续地从数居流中学习并更新
  • 基于实例模型学习--取决于系统是直接把新数据与旧数据比较,还是通过建模来预测

特征工程

概述

  1. 定义:特征工程是将原始数据转化成更好的表达问题本质的特征的过程。
  2. 意义:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
  3. 特征工程包含以下几个过程:数据理解数据预处理、特征构造、特征选择。

流程

image.png

image.png

Embedding

Embedding,即嵌入,起先源自于NLP领域,称为「词嵌入(wordembedding)」,主要是利用背景信息构建词汇的分布式表示,最终可以得到一种词的向量化表达,即用一个抽象的稠密向量来表征一个词。 直观上看embedding相当于是对oneHot做了平滑,而oneHot相当于是对embedding做了max pooling。

产生过程

Embedding意义作用

  1. 解决维度灾难,降低复杂度。
  2. 解决稀疏容易造成的梯度消失的问题
  3. 增加语义信息,能够很好地挖掘嵌入实体间的内部关联

聚类算法

常用聚类方法各自的优点和缺点:

聚类算法优点缺点
基于距离——K-means实现简单快速、聚出的类别相对均匀受初始点选择影响较大、无法自定义距离、无法识别离群点、需要事先确定簇的数量
基于密度——DBSCAN可以识别离群点、对特殊分布效果好聚出的类别欠均匀、受密度定义影响较大、不擅长处理密度不均的数据
层次聚类对特殊分布效果好、类的层次关系具有一定价值有时聚出的类别欠均匀、内存不友好

聚类画像分析

一个基于聚类的用户画像分析工具,以对用户群体进行标注及定位。

  • 帮助运营分析师PM等洞察群体用户在站内的消费、投稿内容生态情况;
  • 研究用户与内容的关系和演变,理解业务增长的变化,制定用户与内容的增长策略,以使得用户分析更简便、更灵活、更快获取数据背后所隐藏的价值。

流程