****这是我参与「第四届青训营 」笔记创作活动的的第5天
基础版
为什么做数据分析
用户增长 降本增效
数据分析各个环节
- 数据分析全景图
- 指标
指标的价值
-
经营状况
-
统一口径
-
团队牵引
-
指定目标
-
发现定位问题
-
埋点是什么
- 数据分析各个环节
- 数据可视化
流程 案例
流程
广告案例
数分常见问题
- 质量不高
- 不验证就上线
- 短视而忽视长期利益
- 用户隐私
分析思路
进阶版(ML机器学习)
什么是ML
从无序的信息中提取数据,自动分析模型,并且进行预测
标准流程
主流算法
- 监督学习
- 非监督学习
- 强化学习
主要的问题
数据方面
- 数据太少
- 数据太乱
- 特征没有相关性
模型方面
- 过拟合
- 欠拟合
特征工程
表达数据本质的过程
Embedding 词嵌入
词嵌入过程
词嵌入意义
- 降维
- 解决梯度消失问题
- 增加语义信息,发现相关性
聚类算法
聚类是一种无监督学习方法: 把有相同特征的数据分成一组(Cluster)
- K-means
- DBSCAN
- 层次聚类
常用聚类特征
优缺点
使用场景
- 指标波动场景
- 精细化运营
- PMF
过程
聚类画像分析
- 对用户进行定位和标注
- 洞察消费
- 了解生态情况
- 研究用户与类容
- 理解业务增长变化
- 制定用户和内容增长的策略
流程
样本选定
向量获取
聚类算法
给用户分类