用户数据分析理论与最佳实践|青训营笔记

67 阅读2分钟

这是我参与「第四届青训营」笔记创作活动的第5天

  1. 作用:通过数据来驱动用户增长,降低成本和提高收益
  2. 指标体系(价值):
  • 结合业务战略目标和业务场景,系统化梳理构建的指标集合

image.jpeg

  • 埋点:上报的记录着触发原因和状态信息的日志数据
    • 分类(两种分类)
      • 服务端埋点
      • 客户端埋点
      • 代码埋点
      • 可视化全埋点(易不全)
  1. 数据表与SQL
  • 表的构成:表名、表字段、表字段类型
  • SQL:结构化查询语言
    • DDL:数据定义语言
    • DML:数据操纵语言
  1. 指标和维度:指标是数据的量化统计,维度是数据分组方式
  2. 机器学习概览
  • 定义:把无序的数据转化成有用的信息,从数据中自动分析获得模型,并利用模型对未知数据进行预测
  • 监督/非监督学习,批量/在线(增量/全量)学习,基于实例/模型学习
  • 挑战
    • 算法
      • 欠拟合、过拟合
    • 数据太少
      • 现实中获取大量数据以及存储的成本往往很高,而对于机器算法的结果而言大量数据是非常有意义的
    • 不具备代表性
      • 在数据量小的情况下,数据的增减容易引起模型的不断变动
      • 在数据量大的情况下,如果样本不具备代表性,那么训练结果也会引入偏差
    • 质量太差
      • 噪音、缺漏、异常等会使得系统更难发现内在规律和模式,需要数据清洗
    • 选取的特征没有代表性
      • 训练数据需要尽量减少无关特征,才能让机器学习的系统更好更快的学习到隐含的规则
      • 需要运用特征工程来获取相关度高的特征集
  • 特征工程
    • 将原始数据转化成更好的表达问题本质的特征的过程
    • Embedding:嵌入,源自NLP领域,用一个抽象的稠密向量来表征一个词
      • 解决维度灾难
      • 解决稀疏容易造成的梯度问题
      • 增加语义信息