为什么要内存对齐？

其一，为了方便移植。
CPU是一块块的进行进行内存访问。有一些硬件平台不允许随机访问，只能访问对齐后的内存地址，否则会报异常。

很多 CPU（如基于 Alpha，IA-64，MIPS，和 SuperH 体系的）拒绝读取未对齐数据。当一个程序要求这些 CPU 读取未对齐数据时，这时 CPU 会进入异常处理状态并且通知程序不能继续执行。举个例子，在 ARM，MIPS，和 SH 硬件平台上，当操作系统被要求存取一个未对齐数据时会默认给应用程序抛出硬件异常。（www.jianshu.com/p/a371e2613…

其二，为了提高CPU内存访问速度。
CPU访问非对齐的内存时需要进行多次拼接。如下图，比如需要读取从[2, 5]的内存，需要分别读取两次，然后还需要做位移的运算，最后才能得到需要的数据。这中间的损耗就会影响访问速度。

字节对齐主要是为了提高内存的访问效率，比如intel 32位cpu，每个总线周期都是从偶地址开始读取32位的内存数据，如果数据存放地址不是从偶数开始，则可能出现需要两个总线周期才能读取到想要的数据，因此需要在内存中存放数据时进行对齐。

通常我们说字节对齐很多时候都是说struct结构体的内存对齐，比如下面的结构体:

struct A{
    char a;
    int b;
    short c;
}

在32位机器上char 占1个字节，int 占4个字节，short占2个字节，一共占用7个字节.但是实际真的是这样吗？

我们先看下面程序的输出:

#include <stdio.h> 
struct A{
 char a; 
 int b;
 short c; 
}; 
int main(){ 
struct A a; 
printf("A: %ld\n", sizeof(a)); 
return 0; 
}

测试输出的结果是A: 12, 比计算的7多了5个字节。这个就是因为编译器在编译的时候进行了内存对齐导致的。

内存对齐主要遵循下面三个原则:

结构体变量的起始地址能够被其最宽的成员大小整除
结构体每个成员相对于起始地址的偏移能够被其自身大小整除，如果不能则在前一个成员后面补充字节
结构体总体大小能够被最宽的成员的大小整除，如不能则在后面补充字节

其实这里有点不严谨，编译器在编译的时候是可以指定对齐大小的，实际使用的有效对齐其实是取指定大小和自身大小的最小值，一般默认的对齐大小是4。

再回到上面的例子，如果默认的对齐大小是4，结构体a的起始地址为0x0000，能够被最宽的数据成员大小(这里是int，大小为4，有效对齐大小也是4)整除，姑char a的从0x0000开始存放占用一个字节即0x0000~~0x0001，然后是int b，其大小为4，故要满足2，需要从0x0004开始，所以在char a后填充三个字节，因此a对齐后占用的空间是0x0000~~0x0003，b占用的空间是0x0004~~0x0007, 然后是short c其大小是2，故从0x0008开始占用两个字节，即0x0008~~0x0009。此时整个结构体占用的空间是0x0000~~0x0009，占用10个字节，10%4 ！= 0, 不满足第三个原则，所以需要在后面补充两个字节，即最后内存对齐后占用的空间是0x0000~~0x000B，一共12个字节。