CPU并发乱序执行

533 阅读3分钟

乱序包含:

  • CPU乱序执行
  • 编译器乱序优化

CPU乱序执行

在保证结果一致的情况下,把原来有序的指令列表,按照指令依赖关系和指令执行周期,重新安排执行顺序.

//代码书写顺序
int a=10;
int b=a;
int c=20;
int d=c;
//优化后的结果
int a=10;
int c=20;
int b=a;
int d=c;

乱序优化在一定程度上可以提高程序的运行速度,在多核情况下,由于CPU内部的高速缓存,乱序执行对访问指令的影响可能导致对数据的影响不能及时的反映到主存上,从而导致结果错误.

我们在一个核上执行写入数据的操作,并在最后写一个标记来表示之前的数据已经准备好,然后另外一个核上通过判断标志来确定数据是否准备好. 这种做法存在风险:标志位先被写入,但是之前的数据操作并未完成(可能未计算完成,也可能是数据没有从CPU缓存善刷新到主存),最终导致了另外一个核使用了错误的数据.

处理器的分支预测单元有可能直接把两条分支指令预取过来并发执行,等到分支判断的结果出来后,再丢弃掉错误的数据.

a=b+c
if(a>0){
   p=x+y
}else{
   p=x-y;
}

代码的本意是先计算a的结果,后面才能继续运算.实际上CPU直接把三个运算同时计算,最后直接挑选正确的p值.

编译器乱序优化

受到处理器预取单元的能力限制,处理器每次只能分析一小块指令的并发性,如果指令相隔比较远就无能为力了。但是从编译器的角度来看,编译器能够对很大一个范围的代码进行分析,能够从更大的范围内分辨出可以并发的指令,并将其尽量靠近排列让处理器更容预取和并发执行,充分利用处理器的乱序并发功能。 所以现代的高性能编译器在目标码优化上都具备对指令进行乱序优化的能力。并且可以对访存的指令进行进一步的乱序,减少逻辑上不必要的访问主存,以及尽量提高 Cache命中率和CPU的LSU(load/store unit)的工作率。所以在打开编译器优化以后,看到生成的汇编码并不严格按照代码的逻辑顺序是正常的。比如:

int *p, *q; 
......; 
*p = 1; 
*p = 2; 
*q = *p;

这样,编译器通常会优化掉前面一个对p的写入(逻辑上冗余),仅对p写入2。而对q赋值的时候,编译器认为此时q的结果就应该是上次p的值,会优化掉从p取数的过程,直接把在寄存器中保存的p的值给q:

(假设r3=pr4=qli   r5, 2      // r5赋值2 
stw  r5, 0(r3)  // 把r5写到*p 
stw  r5, 0(r4)  // 把r5写到*q