实时数据中心建设思路与企业实践+数据分析理论与最佳实践 | 青训营笔记

2022-08-19 127 阅读3分钟

这是我参与「第四届青训营」笔记创作活动的第18天

企业数据平台架构

数据集成

数据生产

计算架构分为Lambda架构和全量计算架构实时数据生产选择“全量计算”架构。

如何处理去重和更新

如何解决乱序问题

数据服务

架构

如何做到查询快？

只关注目标信息
筛选和分区（如根据日期快速筛选）
筛选并根据主键构建和查找
IO优化
计算向量化
执行计划，如过滤下推
把相同粒度指标及相关的维度数据关联成宽表
位化、bitmap以提升信息密度

如何解决不稳定的问题？

熔断触发
限流、降级

计算总结

机器学习概览

什么是机器学习？

将无序的数据转换为有用的信息
从数据中自动分析获得模型，并利用模型对未知数据进行预测

机器学习标准流程：

原始数据->数据探测->特征工程->构建数据集->建模调参->模型评估

机器学习算法分类

监督\非监督学习
批量\在线学习
基于实例\模型学习

机器学习挑战分类

（我之前了解的：深度学习=算法+算力+数据），最大的挑战来自于（糟糕的）算法和数据

算法的问题：
- 过拟合
- 欠拟合
数据的问题
- 数据少
- 数据不具有代表性
- 数据本身质量差
- 选取的特征没有相关性

浅谈机器学习中的特征工程（机器学习的本质）

含义；将原始数据特征化

意义：数据和特征决定了机器学习的上限，而模型和算法逼近这个上限

流程

数据理解->数据预处理->特征构造->特征选择

浅谈特征选择中的embedding

词起源：NLP中的词嵌入概念，用抽象的稠密向量表征一个词
直观上看embedding相当于是对独热编码做了平滑，而独热编码相当于是对embedding做了最大池化
产生过程：网络更新->隐藏权重->嵌入表->查表
意义
- 解决维度灾难
- 解决稀疏易造成的梯度消失问题
- 增加语义信息
应用场景
- 深度学习网络中作为embedding层
- 作为预训练的embedding特征向量
- 可直接作为应用系统（如推荐系统，计算广告系统）召回层，或召回方式之一

浅谈聚类算法（一种无监督学习的机器学习算法）

分类

K-means
DBSCAN
层次聚类

应用场景

指标波动场景
精细化运营
product-market-fit

K-means

简述流程？
- 先确定聚簇数量（常用肘部法、轮廓系数法），并随机初始化中心点
- 计算每个点到聚簇中心点的距离，并将其归入最近的聚簇点
- 归类过程中不断重新计算并更新聚簇的中心点（聚簇中所有点的平均值）
- 不断迭代重复上述步骤，直到簇中心位置趋于稳定