实时数据中心建设思路与企业实践+数据分析理论与最佳实践 | 青训营笔记

127 阅读3分钟

这是我参与「第四届青训营」笔记创作活动的第18天

企业数据平台架构

image.png

数据集成

数据生产

计算架构分为Lambda架构和全量计算架构 实时数据生产选择“全量计算”架构。

如何处理去重和更新

image.png

如何解决乱序问题

image.png

image.png

数据服务

架构

image.png

如何做到查询快?

  • 只关注目标信息
  • 筛选和分区(如根据日期快速筛选)
  • 筛选并根据主键构建和查找
  • IO优化
  • 计算向量化
  • 执行计划,如过滤下推
  • 把相同粒度指标及相关的维度数据关联成宽表
  • 位化、bitmap以提升信息密度

如何解决不稳定的问题?

  • 熔断触发
  • 限流、降级

计算总结

image.png


机器学习概览

什么是机器学习?

  • 将无序的数据转换为有用的信息
  • 从数据中自动分析获得模型,并利用模型对未知数据进行预测

机器学习标准流程:

原始数据->数据探测->特征工程->构建数据集->建模调参->模型评估

机器学习算法分类

  • 监督\非监督学习
  • 批量\在线学习
  • 基于实例\模型学习

机器学习挑战分类

(我之前了解的:深度学习=算法+算力+数据),最大的挑战来自于(糟糕的)算法和数据

  • 算法的问题:
    • 过拟合
    • 欠拟合
  • 数据的问题
    • 数据少
    • 数据不具有代表性
    • 数据本身质量差
    • 选取的特征没有相关性

浅谈机器学习中的特征工程(机器学习的本质)

含义;将原始数据特征化

意义:数据和特征决定了机器学习的上限,而模型和算法逼近这个上限

流程

数据理解->数据预处理->特征构造->特征选择 image.png

浅谈特征选择中的embedding

  • 词起源:NLP中的 词嵌入 概念,用抽象的稠密向量表征一个词

  • 直观上看embedding相当于是对独热编码做了平滑,而独热编码相当于是对embedding做了最大池化

  • 产生过程:网络更新->隐藏权重->嵌入表->查表

  • 意义

    • 解决维度灾难
    • 解决稀疏易造成的梯度消失问题
    • 增加语义信息
  • 应用场景

    • 深度学习网络中作为embedding层
    • 作为预训练的embedding特征向量
    • 可直接作为应用系统(如推荐系统,计算广告系统)召回层,或召回方式之一

浅谈聚类算法(一种无监督学习的机器学习算法)

分类

  • K-means
  • DBSCAN
  • 层次聚类

image.png

应用场景

  • 指标波动场景
  • 精细化运营
  • product-market-fit

K-means

  • 简述流程?
    • 先确定聚簇数量(常用肘部法、轮廓系数法),并随机初始化中心点
    • 计算每个点到聚簇中心点的距离,并将其归入最近的聚簇点
    • 归类过程中不断重新计算并更新聚簇的中心点(聚簇中所有点的平均值)
    • 不断迭代重复上述步骤,直到簇中心位置趋于稳定