这是我参与「第四届青训营 」笔记创作活动的的第19天
- 数据分析的各个环节
- 指标体系
- 结合业务战略目标和业务场景,系统化梳理构建的指标集合
- 构建的指标集合通常是分级的,以满足不同级别的人的数据使用需求
- 搭建指标体系的价值
- 衡量经营状况
- 统一口径和统一认知
- 团队牵引
- 支撑后续制定目标和衡量目标
- 发现问题
- 定位问题
- 北极星指标
- 唯一核心指标
- 数据源
- 埋点
- 埋点数据是指上报的记录着触发原因和状态信息的日志数据。
- 上报方式
- 服务端埋点
- 客户端埋点
- 上报形式
- 代码埋点
- 可视化埋点
- 上报方式
- 埋点要素
- who
- when
- where
- how
- what
- how much
- 在哪里埋点
- 在做数据分析的环节埋点
- 埋点数据是指上报的记录着触发原因和状态信息的日志数据。
- 业务DB
- 统计
- 挖掘
- 爬取
- 采买
- 人工配置
- 行业报告
- 埋点
- 分析工具
- Excel
- SQL
- 指标和维度
- 指标
- 数据的量化统计
- 维度
- 数据分组的方式
- 指标
- 指标和维度
- 编程
- 可视化查询工具
- 分群圈选工具
- 行为分析工具
- 常见的分析模型
- 事件分析
- 留存分析
- 转化分析
- 分布分析
- 行为细查
- 常见的分析模型
- 波动归因分析工具
- BI定制报表
- 可视化
- 表格
- 折线图
- 堆叠面积图
- 柱状图
- 组合图
- 饼图
- 热力图
- 漏斗图
- 指标体系
- 数据分析的流程和案例
- 分析流程
- 明确目的
- 验证问题
- 定位问题原因
- 做数据探索
- 评估工作重心
- 经验猜想
- 大胆假设
- 小心求证
- 数据准备
- 采集
- 摸底
- 清洗
- 数据分析
- 维度对比下钻
- 指标拆解
- 产出报告和优化建议
- 验证
- AB测试
- 调查问卷
- 舆情分析
- 全量实施和总结复盘
- 评估收益
- 总结经验
- 明确目的
- 分析思路
- 获取
- 广告素材
- 激活CPA
- 平均获取1个新增设备花费的成本
- 新增CPA
- 平均获取1一个新增账号花费的成本
- 次留
- 当天新增的用户有多少比例在次日又活跃了
- 3留
- 当天新增的用户有多少比例在第3日活跃
- 2日LTV
- 平均每个用户前两天带来的收入
- 2日ROI
- 2日LTV/新增CPA
- 激活CPA
- 投放渠道
- 定向人群
- 反作弊
- 广告素材
- 激活
- 新手引导
- 推荐冷启动
- 留存
- 产品优化
- 运营活动
- 内容生态
- 收入
- 促销活动
- 经济系统
- 黑产代充
- 自传播
- 分享裂变
- 口碑评分
- 获取
- 常见问题
- 上游数据质量不高
- 不验证就全量上线
- 优化策略短期有利而长期有损
- 过分挖掘用户信息,不注重用户隐私保护
- 分析流程
- 机器学习概览
- 机器学习
- 把无序的数据转换为有用的信息
- 从数据中自动分析获得模型,并利用模型为未知数据进行检测
- 标准流程
- 原始数据
- 数据探测
- 特征工程
- 构建数据集
- 建模调参
- 模型评估
- 算法
- 监督/非监督学习
- 取决于训练是否需要人类的监督
- 批量/在线学习
- 取决于系统是否能持续地从数据流中学习并更新
- 基于实例/模型学习
- 取决于系统是直接把新数据与旧数据比较,还是通过建模来预测
- 监督/非监督学习
- 挑战
- 算法方面
- 过拟合
- 欠拟合
- 数据方面
- 训练数据太少
- 训练数据不具备代表性
- 数据本身质量很差
- 选取的特征没有相关性
- 大数据场景
- 对资源的要求非常高,比如存储和算力
- 算法方面
- 机器学习
- 特征工程
- 将原始数据转化成更好的表达问题本质的特征的过程
- 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已
- 流程
- 数据理解
- 结构化/非结构化
- 定量/定性
- 数据预处理
- 衡量数据质量
- 准确性
- 完整性
- 一致性
- 时效性
- 可信性
- 解释性
- 主要步骤
- 数据清洗
- 缺失值
- 异常值
- 噪声
- 数据集成
- 实体识别
- 冗余
- 数据值冲突
- 数据规约
- 维度规约
- 维度变换
- 数据变换
- 规范化
- 离散化
- 稀疏化
- 数据清洗
- 衡量数据质量
- 特征构造
- 聚合
- 转换
- 特征选择
- Filter(过滤式)
- Wrapper(封装式)
- Embedded(嵌入式)
- 用一个抽象的稠密向量来表征一个词
- 意义作用
- 解决维度灾难,降低复杂度
- 解决稀疏容易造成的梯度消失的问题
- 增加语义信息,能够更好地挖掘嵌入实体间的内部关联
- 应用场景
- 在深度学习网络中作为embedding层
- 作为预训练的embedding特征向量
- embedding可以直接作为推荐系统或计算广告系统的召回层或者召回方法之一
- 数据理解
- 聚类算法
- 无监督的机器学习算法。
- 给定数据集,通过聚类算法将具有相似特征的数据分为一组,不相似特征数据分为不同组
- K-means
- 优点
- 实现简单快速、聚出的类别相对均匀
- 缺点
- 受初始点选择影响较大、无法自定义距离、无法识别离群点、需要实现确定簇的数量
- 优点
- DBSCAN
- 优点
- 可以识别离群点、对特殊分布效果好
- 缺点
- 聚出的类别欠均匀、受密度定义影响较大、不擅长处理密度不均的数据
- 优点
- 层次聚类
- 优点
- 对特殊分布效果好、类的层次关系具有一定价值
- 缺点
- 有时聚出的类别欠均匀、内存不友好
- 优点
- K-means
- 给定数据集,通过聚类算法将具有相似特征的数据分为一组,不相似特征数据分为不同组
- 常用聚类特征
- 人口属性
- 常用指标
- 活跃度
- 时长
- 消费次数
- 消费偏好
- 使用功能占比
- 点击占比
- 启动方式
- 应用场景
- 指标波动场景
- 精细化运营
- PMF(Product-Market Fit)
- 无监督的机器学习算法。
- 聚类画像分析
- 对于对用户群体进行标注及定位
- 分析过程
- 样本选定
- 向量获取
- 选择embedding作为聚类算法特征的依据
- 聚类算法
- 选择k-means算法作为分群的依据
-
可视化分析