这是我参与「第四届青训营」笔记创作活动的第18天
企业数据平台架构
数据集成
数据生产
计算架构分为Lambda架构和全量计算架构 实时数据生产选择“全量计算”架构。
如何处理去重和更新
如何解决乱序问题
数据服务
架构
如何做到查询快?
- 只关注目标信息
- 筛选和分区(如根据日期快速筛选)
- 筛选并根据主键构建和查找
- IO优化
- 计算向量化
- 执行计划,如过滤下推
- 把相同粒度指标及相关的维度数据关联成宽表
- 位化、bitmap以提升信息密度
如何解决不稳定的问题?
- 熔断触发
- 限流、降级
计算总结
机器学习概览
什么是机器学习?
- 将无序的数据转换为有用的信息
- 从数据中自动分析获得模型,并利用模型对未知数据进行预测
机器学习标准流程:
原始数据->数据探测->特征工程->构建数据集->建模调参->模型评估
机器学习算法分类
- 监督\非监督学习
- 批量\在线学习
- 基于实例\模型学习
机器学习挑战分类
(我之前了解的:深度学习=算法+算力+数据),最大的挑战来自于(糟糕的)算法和数据
- 算法的问题:
- 过拟合
- 欠拟合
- 数据的问题
- 数据少
- 数据不具有代表性
- 数据本身质量差
- 选取的特征没有相关性
浅谈机器学习中的特征工程(机器学习的本质)
含义;将原始数据特征化
意义:数据和特征决定了机器学习的上限,而模型和算法逼近这个上限
流程
数据理解->数据预处理->特征构造->特征选择
浅谈特征选择中的embedding
-
词起源:NLP中的 词嵌入 概念,用抽象的稠密向量表征一个词
-
直观上看embedding相当于是对独热编码做了平滑,而独热编码相当于是对embedding做了最大池化
-
产生过程:网络更新->隐藏权重->嵌入表->查表
-
意义
- 解决维度灾难
- 解决稀疏易造成的梯度消失问题
- 增加语义信息
-
应用场景
- 深度学习网络中作为embedding层
- 作为预训练的embedding特征向量
- 可直接作为应用系统(如推荐系统,计算广告系统)召回层,或召回方式之一
浅谈聚类算法(一种无监督学习的机器学习算法)
分类
- K-means
- DBSCAN
- 层次聚类
应用场景
- 指标波动场景
- 精细化运营
- product-market-fit
K-means
- 简述流程?
- 先确定聚簇数量(常用肘部法、轮廓系数法),并随机初始化中心点
- 计算每个点到聚簇中心点的距离,并将其归入最近的聚簇点
- 归类过程中不断重新计算并更新聚簇的中心点(聚簇中所有点的平均值)
- 不断迭代重复上述步骤,直到簇中心位置趋于稳定