存储的本质 - 状态 | 青训营笔记这是我参与「第五届青训营」伴学笔记创作活动的第13天经典案例通过一个模拟案例，描

这是我参与「第五届青训营」伴学笔记创作活动的第13天

通过一个模拟案例，描述了数据是怎么产生，在后端系统里怎么流通，最后怎么写入到存储/数据库系统。问题：

单机存储产品
- 单机文件系统
  - Linux Index Node（inode）、 Directory Entry（dentry）
- 单机key-value存储
  - 常见使用方式：put(k,v) & get(k);
  - 常见数据结构：LSM-Tree；牺牲读性能，追求写性能
  - RocksDB
分布式存储产品
- HDFS
  - 特点：
    - 支持海量数据存储
    - 高容错性
    - 弱POSIX语义
    - 使用普通x86服务器，性价比高
- Ceph
  - 特点
    - 一套系统支持对象接口、块接口、文件接口，但是一切皆对象
    - 数据写入采用主备复制模型
    - 数据分布模型采用CRUSH算法：Hash+权重+随机抽签
单机数据库产品
- 关系型数据库 —— PG、MySQL
- 非关系型数据库 —— ES、MongoDB、Redis
- Elasticsearch使用案例：模糊搜索、计算相似度
分布式数据库产品
- 问题与挑战：容量、弹性、性价比
- 解决方案
  - 存储节点池化，动态扩缩容

课后思考

写入存储系统的粒度太大，会不会导致数据原子性问题？例如一次性写100MB，如果系统突然crash，会不会只有一部分数据持久化了，另一部分丢失了？如果要解决原子性问题，一般会设计什么机制？
在从应用程序到存储介质的链路上，无论读还是写，数据可能要被拷贝好几次，这几次拷贝能不能去掉？如果我们去掉大部分拷贝操作，会有什么副作用，要怎么缓解副作用？
一个关系型数据库大概率是会被并发访问的，如果要保证并发安全，除了在行数据上加悲观锁还有其他方式吗？
在数据库领域，把数据按行存和按列存各有好处，你能从性能优先的角度设计出一种混合存储格式吗？