6.DPDK：包的I/O旅程1. 从 PCIe 事务的角度看包处理 1.1 把 CPU、内存、网卡连成一条高速公交线在

1. 从 PCIe 事务的角度看包处理

1.1 把 CPU、内存、网卡连成一条高速公交线

在现代服务器里，CPU、内存和外设（网卡、GPU、NVMe）之间的数据交换，绝大部分走的都是 PCI Express（PCIe） 。把它想像成机箱内部的一条高速串行“公路”。

几个重要事实（工程师需要记住的）：

PCIe 是 点到点、高速串行 的总线标准，由 PCI-SIG 维护，用来取代早期并行总线（PCI/PCI-X/AGP）。
PCIe 的逻辑结构可以按功能划为三层：
- 事务层（Transaction Layer） ：定义读/写/完成等事务类型（谁读谁写、地址、长度等）。
- 数据链路层（Data Link Layer） ：负责包序号、重试和数据完整性（类似 ACK / CRC）。
- 物理层（Physical Layer） ：比特流的实际发送与接收（编码 / lane /电气）。
拓扑中有 Root Complex（通常是 CPU/PCI 控制器） 和多个 Endpoint（设备，像 NIC） 。
从网卡到 CPU/内存的方向称为 Upstream / Inbound（上游） ；从 CPU 到网卡 是 Downstream / Outbound（下游） 。
- 例：网卡把接到的以太网帧写回主内存 → Upstream（写）
- CPU 更新网卡寄存器或读描述符 → Downstream（读或写）

为什么这些区分重要？
因为不同方向的事务会引发不同类型的 TLP（下面讲），并对 PCIe 带宽/延迟产生不同压力：Upstream 的写（设备写内存）与 Downstream 的读请求（CPU 或设备读描述符/数据）在带宽和事务数上并不对称——这直接决定了我们在 DPDK 层面如何优化（例如优先减少上游小包写、合并描述符访问等）。

1.2 PCIe 事务传输：TLP（Transaction Layer Packet）是传输单位

在 PCIe 上发生的一切“操作”都被封装成 TLP（Transaction Layer Packet） 。把 TLP 想像成 PCIe 的“数据包”。每个 TLP 包含头部、可选的有效载荷（payload）和可选的 ECRC。硬件在物理层上再加上链路层的头尾（序号 + 校验）。

1.2.1 TLP 的关键组成

[ Physical start mark (1B) ] 
[ Data Link header (6B) ] 
[ TLP Header (12B or 16B) ] 
[ Payload (0 .. n) ] 
[ ECRC? (4B, optional) ] 
[ Data Link trailer (6B) ] 
[ Physical end mark (1B) ]

现实中，除 payload 外，TLP 的典型“额外开销”大约 24 B（以 64-bit addressing、16B header 计）。这意味着：每个小包在 PCIe 上传输时会额外带上不可见却真实消耗带宽的字节。

1.2.2 常见的 TLP 事务类型（对 DPDK 最重要的）

Memory Read (MRd) ：请求从某个物理地址读数据（会产生后续的 Completion with Data）。
Memory Write (MWr) ：把数据写入某个物理地址（通常设备把包写回主内存就是 MWr）。
Completion with Data (CpD / CplD) ：对读请求的应答，携带数据。
其它还有配置空间访问、IO 访问等，但对网卡的 DMA 路径，主要是 MRd、MWr、CplD 这类。

1.2.3 为什么这对包处理重要？（工程视角）

应用层的数据（例如完整的以太网帧）被当作 TLP 的 payload 直接承载。PCIe 协议栈对 payload 的内容“完全透明”。网卡只是把一整段 payload（例如一个完整帧）放到一个 MWr 中写入主存；主机端对 payload 的语义不关心。
除了帧本身，还有描述符读写（网卡读描述符获取 buffer 地址，网卡写回完成标志）也都是 MRd/MWr。也就是说：每个包的处理会触发若干个小额 TLP（数据 + 控制） ，这些“控制类 TLP”对带宽也有占用。
TLP 的头部 & 链路层开销对小包非常不友好。例如 64-byte 的以太网包，在 PCIe 上可能需要额外几十字节开销，导致 PCIe 净荷带宽利用率变低。

1.2.4 举个简单的例子（帮你把抽象变成数字）

假设一个 NIC 用 DMA 把 64-byte 的以太网帧写到主存：写数据的 MWr 本身在链路上可能占用 ≈96 B（对齐／周期因素） ；再加上描述符的读写（每次读/写也要 TLP header 等），单个 64 B 包在 PCIe 上“花费”远不止 64 B。这会把 PCIe 的理论带宽快速消耗掉，使得小包转发成为瓶颈所在（后续章节会给出完整的带宽计算示例）。

1.3 小结 — 对 DPDK 开发者的 3 条立刻可用结论

不要只看 PCIe 的理论带宽（GB/s）——看“净荷”带宽更重要：TLP 头、对齐、描述符读写都会吞掉大量带宽，尤其对小包影响巨大。
把控制/寄存器访问与描述符更新做成批量（batch）操作，能显著减少 TLP 数量与头部开销，从而提高有效带宽利用率。
在设计 buffer 与描述符结构时注意对齐（Cache line、TLP 对齐） ，避免部分 Cache-Line 写/读引起的额外读-改-写，这会带来隐藏成本。

2. 从TLP到DPDK性能的秘密

2.1 为什么PCIe总是达不到理论带宽？

在数据面性能优化中，我们经常看到这样的场景：

“Gen2 ×8 理论带宽是 4GB/s，可我的网卡 DMA 写只有 2.6GB/s？是不是驱动有问题？”

其实，这并不是驱动偷懒，而是 PCIe 传输机制的自然结果。
要搞懂它，我们得从最基本的传输单位——TLP（Transaction Layer Packet） 说起。

2.2 TLP：数据在 PCIe 上的“货车”

可以把 PCIe 链路想象成一条多车道高速公路，每辆“货车”运输的就是一个 TLP。
TLP 由三部分组成：

部分	含义	示例大小
Header	包含地址、命令等控制信息	16B
Payload	真正要传输的数据（如写入内存的64B）	64B
ECRC 等	校验、链路层封装等	16B

因此，一个 64B 写操作实际传输的数据量约为 96B。

2.3 实现开销：并非所有车都能“随时上路”

理论上，PCIe 应该能在 4GB/s 下持续满速，但在真实硬件实现中，还存在额外开销：

起始 Lane 限制：部分网卡要求每个 TLP 必须从 Lane0 开始；
对齐限制：某些控制器要求在偶数时钟周期发包；
调度间隙：DMA 发起请求与仲裁过程中的空转周期。

这些因素共同造成——有效带宽低于理论值。

2.4 延伸思考：DMA 驱动的真实世界

在真实的网卡 DMA 过程中，不仅仅是写 64B payload 这么简单：

DMA 要先写控制寄存器；
再写入描述符（Descriptor）；
然后才传输数据块；
最后还要进行 completion 更新。

这些操作本身也都是 PCIe TLP 的一部分，因此进一步稀释了数据传输效率。

DPDK 驱动（如 mlx5）的优化方向，就是尽量：

批量发送 DMA 请求；
减少 PCIe 往返次数；
利用大页内存减少跨 NUMA 访问；
在一条 PCIe 链路上叠加并发 DMA 流。

3. 网卡 DMA 环形队列——数据收发的秘密通道

3.1 为什么 DMA 环形队列如此重要？

我们都知道，DPDK 之所以能做到“用户态高速收发包”，核心在于： 绕过内核，直接用 DMA 控制器 把数据搬进搬出内存。

但 DMA 怎么知道要搬哪一块数据？
CPU 怎么告诉它“这里有一块内存可以用”？
这中间的“指令清单”就是 描述符环形队列（Descriptor Ring） 。

3.2 DMA：CPU 不搬包，只下命令

在传统驱动中，CPU 负责“复制数据”，效率低得可怜；而 DMA 的思路是：CPU 不搬包，只写命令。

你可以把 DMA 控制器看作一个“外包物流团队”。
CPU 写个单子（描述符）说：“这块地址的数据送到内存的这个地方”，
DMA 控制器就会在后台悄悄完成这次搬运。

DMA 控制器与 CPU 之间的沟通，就是通过一块“共享账本”完成的。
这块账本，就是——环形队列（Ring Buffer） 。

3.3 环形队列的组成结构

网卡 DMA 控制器通过环形队列与 CPU 交互。
环形队列由两部分构成：

控制寄存器（Registers）
- Base：队列起始地址
- Size：队列大小（描述符个数）
- Head：硬件当前正在处理的描述符索引（只读）
- Tail：软件更新的索引，表示已准备好的描述符
描述符区（Descriptors）
- 存放收发缓冲区信息，如物理地址、长度、状态位等。

3.4 Intel® 82599 的例子（DPDK 中经典网卡）

以 Intel® 82599 为例：

每个描述符大小为 16B；
队列内存块的起始地址必须对齐到 128B（最大 cache line） ；
描述符数量必须是 8 的倍数。

这些限制的本质目的是：方便硬件用 DMA 高速读写、减少跨 cacheline 访问。

3.5 描述符结构（示意）

struct rx_desc {
    uint64_t buffer_addr;   // 缓冲区物理地址
    uint64_t status_error;  // 状态位 + 错误码
};

在 DPDK 中，这些描述符与 rte_mbuf 绑定使用：

收包：驱动把 mbuf->buf_iova 填入描述符；
发包：驱动从描述符中读取数据地址，再发起 DMA 写。

4. CPU与I/O的协奏

4.1 CPU 与 DMA 的“双人舞”

DPDK 的高速 I/O 依赖 DMA（Direct Memory Access），它让网卡在收发时直接读写内存，无需 CPU 参与数据搬运。

不过，这并不意味着 CPU 就“甩手不管”了。
CPU 仍要完成：

填写描述符（告诉 DMA 哪块内存可用）；
更新寄存器（通知 DMA 有新任务）；
检查状态（确认 DMA 已完成传输）。

整个收发过程其实分成两类动作：

类型	发生位置	通信通道	延迟	举例
CPU 访存操作	LLC / 内存	内部总线	纳秒级	填写描述符、读包内容
MMIO 操作	外设寄存器	PCIe Downstream	微秒级	更新 Tail Register

而 DMA 的操作则对应：

PCIe Downstream：网卡读取内存（读描述符 / 发包数据）；
PCIe Upstream：网卡写回内存（写包内容 / 状态更新）。

4.2 包在系统中的旅程

4.2.1 接收方向

步骤	行为	方向	操作类型
1️⃣	CPU 填充缓冲区地址到接收描述符	—	访存
2️⃣	网卡读取描述符	PCIe Downstream	DMA 读
3️⃣	网卡写入包内容到缓冲区	PCIe Upstream	DMA 写
4️⃣	网卡回写描述符状态（DD位）	PCIe Upstream	DMA 写
5️⃣	CPU 读取描述符确认接收完成	—	访存
6️⃣	CPU 处理包、做转发判断	—	访存
7️⃣	CPU 修改包、准备发送	—	访存

4.2.2 发送方向

步骤	行为	方向	操作类型
8️⃣	CPU 检查发送完成标志	—	访存
9️⃣	CPU 填充发送描述符	—	访存
🔟	网卡读取发送描述符	PCIe Downstream	DMA 读
11	网卡读取包内容并发送	PCIe Downstream	DMA 读
12	网卡写回描述符状态（完成标记）	PCIe Upstream	DMA 写

5优化的三板斧：从 PCIe 到 Cache 的协奏技巧

5.1 减少 MMIO 访问频度（减少 PCIe 往返）

MMIO 是性能杀手，因为它必须穿越 PCIe，总线延迟高达微秒级。
优化策略是：

接收方向：采用批量描述符重填（deferred refill） ，
当队列空闲率低于阈值再统一更新 Tail。
DPDK 就是这样做的。
发送方向：采用批量发包接口（例如 rte_eth_tx_burst()），一次填充多包后统一写 Tail。

对应源码：

tx_pkts = rte_eth_tx_burst(port_id, queue_id, bufs, nb_pkts);

DPDK 在最后只更新一次 Tail Register（一个 MMIO）。

5.2 提高 PCIe 事务效率（合并小事务）

每个描述符仅 16B，如果每次都单独发一个 PCIe 事务，带宽利用率极低。
合并多个操作成 64B 一整 cache line 的请求，可显著提升利用率。

同样，发送完成状态回写也可以批量执行：

RS bit（Report Status） 机制：
每 N（如 32）个包写回一次状态，减少 Upstream 流量。

5.3 避免 Cache Line 部分写

如果 DMA 写入的缓冲区不对齐 Cache Line，会触发“部分写”： DMA 必须先读再写，带来额外的 PCIe 往返。DPDK 在 rte_mempool 分配 buffer 时强制 Cache Line 对齐（64B） 。
因此：

对齐的 buffer → 一次写完成；
不对齐的 buffer → read-modify-write 性能暴跌。

举例：
64B 包 vs 60B 包（网卡去除 CRC）
→ 60B 包未对齐 Cache Line，性能反而更差。

6. Mbuf 与 Mempool

6.1 Mbuf：DPDK 的“数据包容器”

6.1.1 为什么要有 Mbuf？

在 DPDK 中，网络包不是“原生存储”的，它被一个结构体封装——struct rte_mbuf。
这个结构的存在，就像是一个智能快递盒：

里面放的是数据包；
外面贴着所有的包处理标签（RSS、VLAN、端口号、校验状态、长度信息等）；
快递盒可以串联起来装更大的包（Jumbo Frame）。

它的核心目标是：

“让每个包都能以最快的方式被 CPU 识别、访问、处理。”

6.1.2 Mbuf 的结构（重点）

struct rte_mbuf {
    void *buf_addr;       // 缓冲区起始地址
    uint16_t data_off;    // 数据偏移（headroom位置）
    uint16_t data_len;    // 当前mbuf的数据长度
    uint32_t pkt_len;     // 整个包长度（支持巨帧）
    struct rte_mempool *pool;  // 所属内存池
    struct rte_mbuf *next;     // 指向下一个mbuf（巨帧/分片）
    uint64_t ol_flags;         // Offload标志（RSS、CSUM等）
    ...
};

前两个 Cache Line 存储频繁访问的数据；
headroom：预留空间，用来在包前插控制头或封装协议；
buf_addr + offset 指向真正的数据起始；
pkt_len vs data_len：前者是整个包长度，后者仅当前 mbuf。

DPDK 设计的关键是：所有这些字段都 cache-line 对齐，CPU 访问极快。

6.1.3 常用操作函数（实际开发中经常用）

功能	函数	说明
申请 Mbuf	`rte_pktmbuf_alloc()`	从 mempool 获取一个空 Mbuf
释放 Mbuf	`rte_pktmbuf_free()`	放回内存池
取数据指针	`rte_pktmbuf_mtod()`	获取数据起始地址
数据长度	`rte_pktmbuf_datalen()`	当前帧长度
在前/后插入数据	`rte_pktmbuf_prepend()/append()`	调整 headroom 或 tailroom
拼接 / 克隆	`rte_pktmbuf_attach()/clone()`	多缓存拼接或拷贝

开发建议：

Mbuf 的生命周期管理是性能关键。DPDK 通过 mempool 保证了零内核参与 + 零拷贝式内存复用。

6.2 Mempool：Mbuf 的“出生地”

6.2.1 Mempool 的核心思想

Mempool 是 DPDK 中的内存分配器。它在启动时就提前申请好一大块大页内存，然后通过 环形缓存区（ring buffer） 组织这些内存对象。

这就避免了 runtime 调用 malloc() 的高开销，也保证了 NUMA 对齐和 cache 局部性。

简单理解：

mempool 是一个提前分配好的“内存仓库”，里面一箱一箱地装着 Mbuf 这样的“数据盒子”。

6.2.2 内存池的结构（双环形设计）

如下图逻辑（可画图或用伪图）：

Mempool
├── Ring Buffer (空闲对象)
│     ├── Mbuf1
│     ├── Mbuf2
│     └── ...
└── Per-core Cache
      ├── Local Mbufs (core0)
      ├── Local Mbufs (core1)
      └── ...

全局环形缓存：保证线程安全；
每核缓存（Per-core cache） ：减少 CAS 操作；
NUMA 对齐：通过内存通道 / Rank 对齐提高访问效率。

6.2.3 关键优化点

优化手段	说明
Per-core Cache	每个核有自己的本地 cache，提高并发性能
通道/Rank 对齐	减少跨 NUMA 访问，降低延迟
内存浪费权衡	为 cache 对齐和预分配付出一定空间代价

DPDK 原则：空间换时间。牺牲部分内存占用，换取极致的延迟和速率。

6.2.4 案例

#include <rte_mbuf.h>
#include <rte_mempool.h>

#define NB_MBUF 8192
#define MBUF_CACHE_SIZE 256

// 创建 mempool
struct rte_mempool *mbuf_pool = rte_pktmbuf_pool_create(
    "MBUF_POOL", NB_MBUF,
    MBUF_CACHE_SIZE, 0,
    RTE_MBUF_DEFAULT_BUF_SIZE,
    rte_socket_id());

// 从池中获取 mbuf
struct rte_mbuf *m = rte_pktmbuf_alloc(mbuf_pool);

// 操作包数据
char *data = rte_pktmbuf_mtod(m, char *);
strcpy(data, "DPDK Rocks!");
m->data_len = strlen(data);
m->pkt_len = m->data_len;

// 回收 mbuf
rte_pktmbuf_free(m);