大数据笔记5 |用户行为分析理论

203 阅读1分钟

****这是我参与「第四届青训营 」笔记创作活动的的第5天

基础版

为什么做数据分析

用户增长 降本增效

image.png

数据分析各个环节

  • 数据分析全景图

image.png

  • 指标

image.png 指标的价值

  • 经营状况

  • 统一口径

  • 团队牵引

  • 指定目标

  • 发现定位问题

  • 埋点是什么

image.png

  • 数据分析各个环节

image.png

  • 数据可视化

image.png

流程 案例

流程 image.png

广告案例

image.png

数分常见问题

  • 质量不高
  • 不验证就上线
  • 短视而忽视长期利益
  • 用户隐私

分析思路

image.png

进阶版(ML机器学习)

什么是ML

从无序的信息中提取数据,自动分析模型,并且进行预测

标准流程

image.png

主流算法

  • 监督学习
  • 非监督学习
  • 强化学习

主要的问题

数据方面

  • 数据太少
  • 数据太乱
  • 特征没有相关性

模型方面

  • 过拟合
  • 欠拟合

特征工程

表达数据本质的过程

image.png

Embedding 词嵌入

image.png

词嵌入过程

image.png

词嵌入意义

  • 降维
  • 解决梯度消失问题
  • 增加语义信息,发现相关性

聚类算法

聚类是一种无监督学习方法: 把有相同特征的数据分成一组(Cluster)

  • K-means
  • DBSCAN
  • 层次聚类

常用聚类特征

image.png

优缺点

image.png

使用场景

  • 指标波动场景
  • 精细化运营
  • PMF

过程

image.png

聚类画像分析

  • 对用户进行定位和标注
  • 洞察消费
  • 了解生态情况
  • 研究用户与类容
  • 理解业务增长变化
  • 制定用户和内容增长的策略

流程

image.png

样本选定 image.png 向量获取

image.png 聚类算法

image.png

给用户分类

image.png