用户数据分析理论与最佳实践|青训营笔记

142 阅读5分钟

这是我参与「第四届青训营 」笔记创作活动的的第19天

  • 数据分析的各个环节
    • 指标体系
      • 结合业务战略目标和业务场景,系统化梳理构建的指标集合
      • 构建的指标集合通常是分级的,以满足不同级别的人的数据使用需求
      • 搭建指标体系的价值
        • 衡量经营状况
        • 统一口径和统一认知
        • 团队牵引
        • 支撑后续制定目标和衡量目标
        • 发现问题
        • 定位问题
      • 北极星指标
        • 唯一核心指标
    • 数据源
      • 埋点
        • 埋点数据是指上报的记录着触发原因和状态信息的日志数据。
          • 上报方式
            • 服务端埋点
            • 客户端埋点
          • 上报形式
            • 代码埋点
            • 可视化埋点
        • 埋点要素
          • who
          • when
          • where
          • how
          • what
          • how much
        • 在哪里埋点
          • 在做数据分析的环节埋点
      • 业务DB
      • 统计
      • 挖掘
      • 爬取
      • 采买
      • 人工配置
      • 行业报告
    • 分析工具
      • Excel
      • SQL
        • 指标和维度
          • 指标
            • 数据的量化统计
          • 维度
            • 数据分组的方式
      • 编程
      • 可视化查询工具
      • 分群圈选工具
      • 行为分析工具
        • 常见的分析模型
          • 事件分析
          • 留存分析
          • 转化分析
          • 分布分析
          • 行为细查
      • 波动归因分析工具
      • BI定制报表
    • 可视化
      • 表格
      • 折线图
      • 堆叠面积图
      • 柱状图
      • 组合图
      • 饼图
      • 热力图
      • 漏斗图
  • 数据分析的流程和案例
    • 分析流程
      • 明确目的
        • 验证问题
        • 定位问题原因
        • 做数据探索
        • 评估工作重心
      • 经验猜想
        • 大胆假设
        • 小心求证
      • 数据准备
        • 采集
        • 摸底
        • 清洗
      • 数据分析
        • 维度对比下钻
        • 指标拆解
      • 产出报告和优化建议
      • 验证
        • AB测试
        • 调查问卷
        • 舆情分析
      • 全量实施和总结复盘
        • 评估收益
        • 总结经验
    • 分析思路
      • 获取
        • 广告素材
          • 激活CPA
            • 平均获取1个新增设备花费的成本
          • 新增CPA
            • 平均获取1一个新增账号花费的成本
          • 次留
            • 当天新增的用户有多少比例在次日又活跃了
          • 3留
            • 当天新增的用户有多少比例在第3日活跃
          • 2日LTV
            • 平均每个用户前两天带来的收入
          • 2日ROI
            • 2日LTV/新增CPA
        • 投放渠道
        • 定向人群
        • 反作弊
      • 激活
        • 新手引导
        • 推荐冷启动
      • 留存
        • 产品优化
        • 运营活动
        • 内容生态
      • 收入
        • 促销活动
        • 经济系统
        • 黑产代充
      • 自传播
        • 分享裂变
        • 口碑评分
    • 常见问题
      • 上游数据质量不高
      • 不验证就全量上线
      • 优化策略短期有利而长期有损
      • 过分挖掘用户信息,不注重用户隐私保护
  • 机器学习概览
    • 机器学习
      • 把无序的数据转换为有用的信息
      • 从数据中自动分析获得模型,并利用模型为未知数据进行检测
      • 标准流程
        • 原始数据
        • 数据探测
        • 特征工程
        • 构建数据集
        • 建模调参
        • 模型评估
    • 算法
      • 监督/非监督学习
        • 取决于训练是否需要人类的监督
      • 批量/在线学习
        • 取决于系统是否能持续地从数据流中学习并更新
      • 基于实例/模型学习
        • 取决于系统是直接把新数据与旧数据比较,还是通过建模来预测
    • 挑战
      • 算法方面
        • 过拟合
        • 欠拟合
      • 数据方面
        • 训练数据太少
        • 训练数据不具备代表性
        • 数据本身质量很差
        • 选取的特征没有相关性
      • 大数据场景
        • 对资源的要求非常高,比如存储和算力
  • 特征工程
    • 将原始数据转化成更好的表达问题本质的特征的过程
    • 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已
    • 流程
      • 数据理解
        • 结构化/非结构化
        • 定量/定性
      • 数据预处理
        • 衡量数据质量
          • 准确性
          • 完整性
          • 一致性
          • 时效性
          • 可信性
          • 解释性
        • 主要步骤
          • 数据清洗
            • 缺失值
            • 异常值
            • 噪声
          • 数据集成
            • 实体识别
            • 冗余
            • 数据值冲突
          • 数据规约
            • 维度规约
            • 维度变换
          • 数据变换
            • 规范化
            • 离散化
            • 稀疏化
      • 特征构造
        • 聚合
        • 转换
      • 特征选择
        • Filter(过滤式)
        • Wrapper(封装式)
        • Embedded(嵌入式)
          • 用一个抽象的稠密向量来表征一个词
          • 意义作用
            • 解决维度灾难,降低复杂度
            • 解决稀疏容易造成的梯度消失的问题
            • 增加语义信息,能够更好地挖掘嵌入实体间的内部关联
          • 应用场景
            • 在深度学习网络中作为embedding
            • 作为预训练的embedding特征向量
            • embedding可以直接作为推荐系统或计算广告系统的召回层或者召回方法之一
  • 聚类算法
    • 无监督的机器学习算法。
      • 给定数据集,通过聚类算法将具有相似特征的数据分为一组,不相似特征数据分为不同组
        • K-means
          • 优点
            • 实现简单快速、聚出的类别相对均匀
          • 缺点
            • 受初始点选择影响较大、无法自定义距离、无法识别离群点、需要实现确定簇的数量
        • DBSCAN
          • 优点
            • 可以识别离群点、对特殊分布效果好
          • 缺点
            • 聚出的类别欠均匀、受密度定义影响较大、不擅长处理密度不均的数据
        • 层次聚类
          • 优点
            • 对特殊分布效果好、类的层次关系具有一定价值
          • 缺点
            • 有时聚出的类别欠均匀、内存不友好
    • 常用聚类特征
      • 人口属性
      • 常用指标
        • 活跃度
        • 时长
        • 消费次数
      • 消费偏好
        • 使用功能占比
        • 点击占比
        • 启动方式
    • 应用场景
      • 指标波动场景
      • 精细化运营
      • PMF(Product-Market Fit)
  • 聚类画像分析
    • 对于对用户群体进行标注及定位
    • 分析过程
      • 样本选定
      • 向量获取
        • 选择embedding作为聚类算法特征的依据
      • 聚类算法
        • 选择k-means算法作为分群的依据
      • 可视化分析