分布式存储|青训营笔记

67 阅读2分钟

这是我参与「第五届青训营 」伴学笔记创作活动的第 12 天

经典案例

数据持久化

image.png

  • 通过一个模拟案例,描述了数据是怎么产生,在后端系统里怎么流通,最后怎么写入到存储/数据库系统。

存储 & 数据库简介

  • 存储系统概览

    • 存储系统特点
    • 存储器层级结构
    • 单机存储栈
    • RAID技术:
      • RAID(Redundant Array of Independent Disks)
      • 独立磁盘冗余磁盘阵列,简单的说,RAID是一种把多块独立的硬盘(物理硬盘)按不同的方式组合起来形成一个硬盘组(逻辑硬盘),从而提供比单个硬盘更高的存储性能和提供数据备份技术
  • 数据库系统概览

    • 关系型数据库特点
    • 非关系型数据库特点
    • 数据库 vs 经典存储
    • 数据库使用方式

主流产品剖析

  • 单机存储产品
    • 单机文件系统
      • Linux文件两大数据结构 image.png
    • 单机key-value存储
      • 常见数据结构:LSM-Tree image.png
  • 分布式存储产品
    • HDFS image.png
    • Ceph
      • 一切皆对象
      • 数据写入采用主备复制模型
      • 数据分布采用CRUSH算法:HASH + 权重 + 随机抽签 image.png
  • 单机数据库产品
    • 关系型数据库 —— PG、MySQL
    • 非关系型数据库 —— ES、MongoDB、Redis
    • Elasticsearch使用案例
  • 分布式数据库产品
    • 问题与挑战:弹性、容量、性价比
    • 解决方案

新技术演进

  • SPDK
    • Bypass OS Kernel
    • image.png
  • 人工智能
    • image.png
  • 新硬件加速 CPU -> GPU -> DPU

总结与反思

今天更深地理解了关系型数据库(基于关系和关系代数构建的,一般支持事务和SQL访问)与非关系型数据库,了解了新技术比如Bypass OS Kernel以及AI决策可以推导出更优的存储方式,对分布式存储有了更多的兴趣。

参考资料

  1. bytedance.feishu.cn/file/boxcn7…
  2. juejin.cn/post/719769…