内存屏障和CPU缓存

143 阅读4分钟

CPU性能优化手段

为了提高程序运行的性能,现代CPU在很多方面对程序进行了优化。

CPU性能优化手段-缓存

CPU高速缓存,尽可能地避免处理器访问主内存的时间开销,处理器大多会利用缓存(Cache)提高性能。

多级缓存

CPU在读取数据时,先在L1中寻找,再从L2中寻找,再从L3中寻找,然后是内存,再后是外存储器。

  • L1:Cache(一级缓存)CPU的第一层高速缓存,分为数据缓存和指令缓存。一般CPU的L1级缓存的容量通常在32-4096KB。
  • L2:由于L1级高速缓存容量的限制,为在此提供CPU的运算速度,在CPU外部放置了一高速存储器,即二级缓存。
  • L3:现在都是内置的。而它的实际作用即是,L3缓存的应用可以进一步降低内存的延迟,同时提升大数据量计算时处理器的性能。具有较大L3缓存的处理器提供更有效的文件系统缓存行为及较短消息和处理器队列的长度。一般是多核共享一个L3缓存。

缓存同步协议

多CPU读取同样数据进行缓存,进行不同运算之后,最终写入主内存是以哪个CPU为准? 在这种高速缓存回写的场景下,有一个缓存一致性协议,多数CPU厂商对它进行了实现。 MESI协议,它规定了每个缓存有一个状态位,同时还定义了下面四个状态:

  • 修改态(Modified):此Cache已被修改过,内存已不同于主存,为此Cache专有。
  • 专有态(Exclusive):此Cache行内容同与主存,但不出现在其他Cache中。
  • 共享态(Shared):此Cache行内容同与主存,但也出现在其他Cache中。
  • 无效态(Invalid):此Cache行内容无效(空行)。 多处理器时,单个CPU对缓存中数据进行了改动,需要通知给其他CPU。也就是意味着,CPU处理器要控制自己的读写操作,还要监听其他处理器发出的通知,从而保证最终一致。

CPU性能优化手段-指令重排

指令重排的场景:当CPU写缓存时发现缓存区块正被其他CPU占用,为提高CPU的处理性能,可能将后面读缓存命令优先执行。重排时并未随意重排,遵循as-if-serial语义。
as-if-serial语义:不管怎么重排序(编译器、处理器为了提高并行度),(单线程)程序的执行结果不能被改变。编译器,runtime和处理器都必须遵守as-if-serial语义。也就是说,编译器和处理器不会对数据依赖关系的操作进行重排序。

CPU性能优化导致的问题

  • CPU在高速缓存下有一个问题:缓存的数据和主内存的数据不是实时同步的,各CPU(CPU核心)之间的数据也不是实时同步的。在同一时间点,各CPU所看到的同一内存地址的数据的值可能是不一致的。
  • CPU指令重排序下有一个问题:虽然遵守了as-if-serial语义,但仅在单CPU自己执行的情况下能保证结果正确。多核多线程中,指令逻辑无法分辨因果关联,可能出现乱序执行,导致程序执行结果运行错误。

内存屏障

处理器提供了两个内存屏障指令来解决上面的两个问题:

  • 写内存屏障:在指令后插入Store Barrier,能让写入缓存的最新数据更新写入主内存,让其他线程可见。强制写入主内存,这种显示的调用,CPU就不会因为性能考虑而对指令重排。
  • 读内存屏障:在指令前插入Load Barrier,可以让高速缓存中的数据失效,强制重新从主内存中加载数据。强制读取主内存内容,让CPU缓存与主内存保持一致,避免了缓存导致的一致性问题。