用户数据分析理论与最佳实践｜青训营笔记

2022-08-30 67 阅读2分钟

这是我参与「第四届青训营」笔记创作活动的第5天

作用：通过数据来驱动用户增长，降低成本和提高收益
指标体系（价值）：

结合业务战略目标和业务场景，系统化梳理构建的指标集合

埋点：上报的记录着触发原因和状态信息的日志数据
- 分类（两种分类）
  - 服务端埋点
  - 客户端埋点
  - 代码埋点
  - 可视化全埋点（易不全）

数据表与SQL

表的构成：表名、表字段、表字段类型
SQL：结构化查询语言
- DDL：数据定义语言
- DML：数据操纵语言

指标和维度：指标是数据的量化统计，维度是数据分组方式
机器学习概览

定义：把无序的数据转化成有用的信息，从数据中自动分析获得模型，并利用模型对未知数据进行预测
监督/非监督学习，批量/在线（增量/全量）学习，基于实例/模型学习
挑战
- 算法
  - 欠拟合、过拟合
- 数据太少
  - 现实中获取大量数据以及存储的成本往往很高，而对于机器算法的结果而言大量数据是非常有意义的
- 不具备代表性
  - 在数据量小的情况下，数据的增减容易引起模型的不断变动
  - 在数据量大的情况下，如果样本不具备代表性，那么训练结果也会引入偏差
- 质量太差
  - 噪音、缺漏、异常等会使得系统更难发现内在规律和模式，需要数据清洗
- 选取的特征没有代表性
  - 训练数据需要尽量减少无关特征，才能让机器学习的系统更好更快的学习到隐含的规则
  - 需要运用特征工程来获取相关度高的特征集
特征工程
- 将原始数据转化成更好的表达问题本质的特征的过程
- Embedding:嵌入，源自NLP领域，用一个抽象的稠密向量来表征一个词
  - 解决维度灾难
  - 解决稀疏容易造成的梯度问题
  - 增加语义信息