这是我参与「第四届青训营」笔记创作活动的第5天
- 作用:通过数据来驱动用户增长,降低成本和提高收益
- 指标体系(价值):
- 埋点:上报的记录着触发原因和状态信息的日志数据
- 分类(两种分类)
- 服务端埋点
- 客户端埋点
- 代码埋点
- 可视化全埋点(易不全)
- 分类(两种分类)
- 数据表与SQL
- 表的构成:表名、表字段、表字段类型
- SQL:结构化查询语言
- DDL:数据定义语言
- DML:数据操纵语言
- 指标和维度:指标是数据的量化统计,维度是数据分组方式
- 机器学习概览
- 定义:把无序的数据转化成有用的信息,从数据中自动分析获得模型,并利用模型对未知数据进行预测
- 监督/非监督学习,批量/在线(增量/全量)学习,基于实例/模型学习
- 挑战
- 算法
- 欠拟合、过拟合
- 数据太少
- 现实中获取大量数据以及存储的成本往往很高,而对于机器算法的结果而言大量数据是非常有意义的
- 不具备代表性
- 在数据量小的情况下,数据的增减容易引起模型的不断变动
- 在数据量大的情况下,如果样本不具备代表性,那么训练结果也会引入偏差
- 质量太差
- 噪音、缺漏、异常等会使得系统更难发现内在规律和模式,需要数据清洗
- 选取的特征没有代表性
- 训练数据需要尽量减少无关特征,才能让机器学习的系统更好更快的学习到隐含的规则
- 需要运用特征工程来获取相关度高的特征集
- 算法
- 特征工程
- 将原始数据转化成更好的表达问题本质的特征的过程
- Embedding:嵌入,源自NLP领域,用一个抽象的稠密向量来表征一个词
- 解决维度灾难
- 解决稀疏容易造成的梯度问题
- 增加语义信息