零拷贝及其应用｜青训营传统文件传输过程 linux传输文件的过程 4次用户态与内核态的上下文切换系统调用 writ

传统文件传输过程
- linux传输文件的过程
  - 4次用户态与内核态的上下文切换
    - 系统调用 write read
    - 区分用户空间和内核空间
      - 隔离了操作系统程序和应用程序
      - 保证了操作系统的稳定性
  - 4次数据拷贝（CPU拷贝）
    - 为什么内核空间不直接使用用户空间的数据
      - 因为内核不能信任任何用户空间的指针（需要进行数据检查）
        
        为什么不直接进行检查呢（不进行拷贝）
        
        因为检查的过程用户可能修改源数据
        
        检查的时候不让用户修改不就行了？加锁？（我的想法）
      - 稳定性和效率的平衡
  - CPU数据拷贝方式操作系统优化
    - IO 轮询（轮询磁盘数据是否准备好）
      - 实现简单
      - 占用大量CPU时间效率低下
    - IO 中断（准备好了发送IO中断信号）
      - 对比轮询一定程度释放了CPU资源
      - 大数据量会 CPU会反复中断（中断开销也比较大）
    - DMA（Direct Memory Access）传输（处理内核缓冲区）
      - CPU只需要处理一次中断
      - 彻底减少了一次CPU拷贝
    - 上述拷贝步骤read 都需要从磁盘到内核缓冲区内核缓冲区到用户缓冲区
零拷贝的实现方式
- 零拷贝定义并不是0次拷贝数据
  - 减少用户空间和内核空间之间的CPU拷贝次数
  - 减少上下文切换次数
- mmap + write
  - mmap映射内核缓冲区到用户缓冲区直接操作指针不再拷贝（又减少一次）
  - 仍然需要四次上下文切换 mmap 两次 write 两次两次cpu拷贝
  - 适用大文件不适应小文件（会碎片化）
- sendfile
  - CPU直接将内核缓存区的文件拷贝到socket缓存区
  - 只有一个内核空间的CPU拷贝和sendfile()的两次上下文切换
- sendfile + gather --没有使用CPU进行拷贝
  - socket缓存区文件描述符fd 和偏移量 offset 存入到socket缓冲区
  - 减少一次内核的CPU拷贝网卡使用DMA根据上述信息去内核缓冲区拷贝
  - 去除了所有的CPU拷贝只有sendfile 的两次上下文信息
  - 缺点：需要硬件支持 gather
- splice 系统调用
  - 在内核缓存区和socket缓冲区建立管道内部通过管道进行数据拷贝

拷贝方式	上下文切换数	CPU拷贝数	DMA拷贝数	用户进程是否可以修改数据
read + write	4	4	0	是
read + write + DMA	4	2	2	是
mmap + witte	4	1	2	是
sendfile	2	1	2	否
sendfile + gatherDMA	2	0	2	否
splice	2	0	2	否

go语言的实践代码
零拷贝的应用
- Kafka 吞吐量大概百万级海量数据应用场景
  - producer -> broker -> consumer
  - disk就是指磁盘机械硬盘 SSD固态硬盘 memory内存
  - disk 花时间的主要三部分寻道时间旋转延时数据传输
  - 优化点1：保证顺序读写 --解决单次IO的性能
    - 顺序读写在上述几种存储介质中大于随机读写的性能
    - producer 每次回追加写入到partition（逻辑概念对于segment）
    - consumer每次消费的时候根据offset进行顺序读写
    - 批量刷盘减少磁盘IO的次数
  - 优化点2：页缓存技术 --减少磁盘IO的次数
    - 利用linux的page cache技术
    - 异步落盘 减少磁盘IO次数
    - 通过Replication 机制去解决数据丢失的问题
      - 但还是存在丢失的可能当broker要持久化数据时（写入）断电
  - 优化点3：零拷贝之mmap --减少数据拷贝的次数
    - 稀疏索引（sparse index）这里clickhouse也使用了稀疏索引
      - 稠密索引（dense index）和稀疏索引其实就是空间和时间的trade-off
      - 数据量巨大时为每条数据建立索引也耗费大量空间
      - 索引文件的size都不大，因此很容易将它们做内存映射（mmap）减少一次数据拷贝
      - clickshouse MergeTree 索引通过order by字段指定为稀疏索引这篇读过导师推荐跳表索引也读过不使用主键用跳表索引
    - 通过mmap 去读写刚刚的稀疏索引文件
      - 为什么不用mmap直接读取日志文件
        
        内存映射的文件是有限制的内存肯定小（Memory-mapped files）
      - 稀疏索引文件比较小
  - 优化点4：零拷贝之sendfile
    - consumer 不需要对数据进行修改采样零拷贝方式
    - sendfile() 直接从page cache 中到socket缓冲区
    - 若不在page cache中去磁盘读取（欲读的操作）
    - 如果生产消费的速度差不多基本上可以从page cache 中读取磁盘访问少
- RocketMQ 10万级别吞吐业务中用到的
  - producer -> broker -> consumer
  - broker 对于一台服务器存储topic topic也可以分片存储在不同的broker中
  - message queue 用于存储消息的物理地址
  - 每个topic的消息地址存储在多个message queue
  - kafka适用日志类的传输海量数据
  - RocketMQ 可靠性强功能性支持适用电商应该是严格有序
  - 优化点1 ： mmap
    - consumer queue commit log 都使用了 mmap
    - rocketMQ 文件使用定长存储
    - mmap 存在缺页中断问题通过文件预热解决
  - 为什么RocketMQ不适用sendfile 机制
    - 因为sendfile不支持用户进程修改
    - 无法支持RocketMQ 提供的一些功能

Q&A
- Q:通过使用mmap进行文件读写，的读写速度和内存速度一致吗还是和磁盘速度一致
- A:通过使用mmap进行文件读写，读取速度和写入速度通常会接近内存的速度，而不是磁盘的速度。
- RocketMQ的一些解释

零拷贝及其应用 ｜ 青训营

零拷贝及其应用｜青训营