从 CPU 到 GPU 全链路可信,百度智能云新一代 AI 机密计算实例的探索与落地

0 阅读14分钟

从 CPU 到多 GPU,从单点到全链路:百度智能云第 7 代 AI 机密虚拟机正式落地,让「数据可用不可见」真正成为云上高敏感业务的基础设施。

  • 全链路机密计算:CPU TDX + GPU CC + PPCIe 加密链路;
  • 多 GPU 弹性扩展:支持 NVLink / NVSwitch 高速互联;
  • 全资源售卖:DPU 卸载 I/O, CPU 资源完全交付;
  • 可信验证:TDX + GPU CC 双重远程认证;
  • 开箱即用:预置环境 + 最新 LTS 驱动 + CUDA。

1.    AI 机密计算:让上云不再为安全焦虑

企业上云的核心矛盾,正在从资源获取转向信任建立。当计算与数据迁移至云端,传统基于边界防护的安全模型不再适用,取而代之的是对数据在使用中是否仍然可控的根本追问。

在这一背景下,机密计算(Confidential Computing)通过在硬件层构建可信执行环境(TEE),将安全边界从系统外围收敛至计算本身,成为云基础设施演进的关键方向。

英特尔®至强®处理器内置的 TDX(Trust Domain Extensions)技术 在云环境中构建了硬件级可信执行环境(TEE),通过「可信域」(Trust Domain,TD)实现虚拟机级隔离,配合内存加密( 英特尔®多密钥全内存加密,英特尔®MK-TME)与远程证明,真正让数据在使用状态下也处于严密保护之中。

百度智能云基于英特尔®至强®处理器内置的 TDX 机密计算能力,结合远程证明技术,设计并实现了新一代 AI 机密虚拟化架构,让用户可验证、可信任。

更重要的是,在百度智能云第 7 代 AI 机密虚拟机中,这份信任不再局限于 CPU。通过引入 NVIDIA BlueField 的 vDPA(虚拟化数据路径加速)技术,并结合支持机密计算的 GPU 协同,实现 CPU 与 GPU 之间数据传输链路的全程加密保护,实现端到端数据保护,为云上 GPU 业务提供更高等级的数据保护与更强有力的隔离边界。

2.第 7 代 AI 机密虚拟机:从单点到全栈的跨越

2.1. 第 6 代的局限:算力与资源的两难

在基于第 6 代虚拟机构建的机密虚拟机方案中,仅支持单块 GPU,主要适用于 7B / 13B 等小规模大模型的推理场景,难以满足更高算力任务的需求。

同时,由于未使用 DPU 进行 I/O 卸载,网络与存储 I/O 需要占用服务器侧的 CPU 核心,导致计算与内存资源无法全量交付,影响了客户使用体验。

2.2. 第 7 代的突破:算力与弹性兼得

如今,基于第 7 代虚拟机——搭载新款英特尔®至强®处理器及 BlueField DPU —— 百度智能云打造了新一代 AI 机密虚拟机,从两个维度实现了全面突破。

在算力层面,引入了 NVIDIA 提出的 Protect PCIe 加密模式,支持将多块 GPU 直通到同一虚拟机,并能通过 NVLink 或 NVSwitch 构建高速互联集群,显著拓展了机密计算在更大规模、更高性能场景下的应用边界。在资源弹性层面,通过将网络和存储 I/O 全面卸载至 DPU,实现了计算与内存资源的完整交付,为客户提供了更优的资源利用与性能体验。

图片

百度智能云推出的第 7 代 AI 机密虚拟机,面向高端计算与 AI 训练场景的旗舰机型。它集极致算力、超大显存、高速存储与网络于一身,专为大规模、高敏感度的计算任务而生,在释放强大 AI 算力的同时,让数据与应用始终处于可信的保护之中。

第 7 代 AI 机密虚拟机关键能力如下:

  • 全链路机密计算:CPU TDX + GPU CC + PPCIe 加密链路;
  • 多 GPU 弹性扩展:支持 NVLink / NVSwitch 高速互联;
  • 全资源售卖:DPU 卸载 I/O,CPU 资源完全交付;
  • 可信验证:TDX + GPU CC 双重远程认证;
  • 开箱即用:预置环境 + 最新 LTS 驱动 + CUDA。

3. 从硬件到链路:构建全栈可信

3.1.    DPU vDPA :高性能与弹性调度如何兼得?

在基于 DPU 实现「全资源售卖」虚拟机的过程中,我们面临一个关键问题:如何在虚拟机中获得媲美物理设备的性能,同时又不牺牲弹性调度的能力?

3.1.1. 两种路径的权衡

围绕这一问题,业界通常有两种实现路径:基于 VFIO 的传统直通方案,以及基于 vDPA 的半虚拟化加速方案。

VFIO 方案强调极致性能。它通过将物理设备直通到虚拟机中,使虚拟机几乎以裸金属方式访问硬件,从而获得接近物理机的 I/O 性能,这也是高性能计算场景中的常见选择。

但这种「直接访问」也带来了明显限制:虚拟机与底层硬件形成强绑定,无法进行热迁移。一旦宿主机需要维护或发生故障,业务只能中断,难以实现云环境所需的弹性调度与高可用能力。

因此,我们需要在两者之间取得平衡:既要接近物理机的性能,又要具备热迁移能力。

3.1.2.    vDPA 的答案:数据路径硬件卸载、控制路径软件管理

基于这一目标,第 7 代虚拟机选择采用 vDPA 方案。

这个问题的本质是:如何既不打破虚拟化的灵活性,又能把性能关键路径交给硬件来做?

vDPA 的答案很直接——数据路径硬件卸载,控制路径软件管理。通过将数据转发下沉到智能网卡硬件加速,同时将设备管理与调度保留在虚拟化系统中,vDPA 在性能与弹性之间实现了有效解耦。

3.1.3. 实现细节:VFE 与智能网卡的协同

在具体实现上,BlueField DPU 通过 vhost-vDPA 与 VFE(Virtio Full Emulation)模块(用于在用户态模拟 virtio 设备语义),将底层硬件能力封装为标准的 virtio 接口提供给虚拟机使用。一方面,VFE 通过 vhost-user 与QEMU 通信;另一方面,通过 VFIO 机制管理设备资源,并结合 vDPA 实现数据路径加速,从而在虚拟机与硬件之间建立起一层解耦结构。

这种解耦设计不仅使数据路径能够充分利用硬件加速,保障高性能,同时也让设备逻辑与迁移状态管理得以独立演进,降低了系统复杂度与运维成本,使整体架构在性能、弹性与可维护性之间实现了更优平衡。

图片

此外,BlueField DPU 的 vDPA 还支持 page-per-vq 与 host-notifier 特性,可将 virtio notify region 直接透传给虚拟机,避免频繁的 VM exit,显著提升 I/O 密集型场景的性能。这一能力为后续支持多 GPU 高吞吐训练任务奠定了网络基础,但也带来了与 TDX、GPU 共存的新挑战。

3.2. I/O 可信链路:如何打破私有与共享的矛盾?

3.2.1. 核心矛盾:私有与共享

在 AI 机密虚拟机中,一个绕不开的问题是:机密计算强调「私有」,而 vDPA 高性能 I/O 依赖「共享」,两者看似天然矛盾。

在 TDX 体系下,内存并非物理划分为两块,而是在地址级别被标记为不同属性:一类为仅供虚拟机内部访问的私有内存,另一类为用于与外部设备交互的共享内存。这种机制保证了安全性,但也带来了新的挑战:一旦内存属性标记不正确,会触发 TDX 的访问校验异常(如 #VE),导致设备无法正常工作。

3.2.2. 误标记的代价:notify region 为何失效

以 vDPA 场景为例,其高性能能力依赖共享内存来完成数据交互。但在默认实现中,部分关键内存区域(如 notify region)并没有在启动阶段被正确标记为「共享」。

结果是,当虚拟机启动、固件初始化设备时,这些内存会被当作「私有」处理,从而触发安全校验失败,导致设备无法正常工作,甚至影响虚拟机启动。

这类问题的本质,并不在于设备本身,而在于机密计算的安全边界没有正确延伸到 I/O 路径上。

图片

在 TEE-IO 技术出现之前,传统 I/O 设备模型无法感知或适配机密计算环境,因而不具备与 TEE 虚拟机直接协同的能力。在这一阶段,系统必须在机密计算的内存隔离模型与 I/O 虚拟化依赖的共享内存机制之间进行权衡与适配。

随着 I/O 设备侧对机密计算支持能力的持续演进,支持 TEE-IO 的设备模型逐步出现,使 I/O 设备能够与处理器侧机密虚拟机建立安全直通路径,如英特尔的 TDX Connect 技术。

3.2.3. 固件优化:让共享内存回归共享

针对这一点,百度智能云对 TDVF 固件进行了针对性优化:在系统启动阶段,提前识别并标记设备相关内存区域,确保其具备正确的共享属性。同时,在共享与私有内存之间建立受控的数据处理机制,在保证安全的前提下,实现高效的数据流转。

通过这一系列优化,机密计算环境下的 I/O 通路得以打通——既保证了数据始终处于可控保护之下,又不牺牲高性能 I/O 所需的效率。

3.3. 多卡 GPU:如何拓展 AI 算力的可信边界?

3.3.1. 从「用得好」到「用得安全」

在传统 GPU 虚拟化场景中,关注重点通常是资源切分与调度效率,即如何更高效地使用 GPU 算力资源。然而,在机密计算场景下,问题的重点发生了变化:不仅要「用得好」,更要「用得安全」。

虽然 CPU 侧已经通过 TDX 构建了可信执行环境,但在实际 AI 计算过程中,数据并不会停留在 CPU 内部,而是需要频繁在 CPU 与 GPU 之间,以及 GPU 与 GPU 之间进行传输与处理。

3.3.2. 明文链路的隐患

这意味着,尽管 CPU 侧已经建立了可信执行环境,但一旦数据在传输过程中脱离该边界(例如以明文形式经过 PCIe 总线),原有的安全假设即被打破,形成所谓的「边界泄露」(boundary leakage)。

因此,机密计算的有效性,不取决于单一组件的安全能力,而取决于整个数据路径是否始终处于受控边界之内。

3.3.3.    Protected PCIe :为 GPU 通信打造加密隧道

基于这一判断,百度智能云在第 7 代机型中引入 NVIDIA Protected PCIe(PPCIe)模式,在 CPU 信任域与 GPU 之间建立基于硬件的链路级加密保护机制,使数据在传输过程中始终处于硬件级加密保护之下。

通过这一方式,系统不仅保障了 GPU 侧的数据处理安全,也封堵了 PCIe 总线层面的潜在窃听风险,从而将机密计算能力从「单点保护」扩展为「全链路保护」。

图片

3.3.4. 地址空间的冲突:多 GPU 带来的新挑战

在引入多 GPU 以提升算力规模的过程中,系统的 PCI 地址空间分配机制也随之发生变化。

每块高性能 GPU 都需要预留一块较大的地址窗口(即 BAR 空间),用于 CPU 与 GPU 之间的通信。以某款 GPU 为例,单卡预留的 BAR 地址空间就高达 64 GB。由于低地址空间(通常只有 2-3 GB 可用)无法容纳如此大的连续地址窗口,系统固件会将这类大 BAR 分配到 4 GB 以上的高地址区域。

这带来一个连锁反应:当多块 GPU 共存时,大量高地址空间被 GPU 的 BAR 占据。系统固件在为其他 PCI 设备(如 vDPA 设备的 notify region)分配资源时,也可能将其分配到 4 GB 以上,以满足地址连续性和对齐要求。

这一变化带来了一个关键影响:传统启动固件(如 SeaBIOS)运行在 32 位模式下,默认无法直接访问 4 GB 以上的 MMIO 地址。当 notify region 位于 4 GB 以上时,固件必须通过 PCI 配置访问机制(如 CF8/CFC 端口)间接访问,这会触发 VM exit,使执行流程从虚拟机切换到宿主机侧的 QEMU 进行处理,从而改变了原有的访问路径。

在 page-per-vq 优化模式下,VFE 并未对这一新的访问路径进行完整模拟,导致后端设备无法正确接收到来自虚拟机的通知信号,最终造成设备初始化流程中断,虚拟机启动失败。

图片

3.3.5. 突破兼容性瓶颈:从问题定位到社区贡献

针对这一问题,百度智能云对内存子区域的查找与处理逻辑进行了优化,使系统能够在复杂地址空间布局下,准确定位对应的 MemoryRegion,并由其内置的 handler 正确处理访问请求,从而恢复 notify 机制的正常工作。

通过这一优化,系统成功解决了多 GPU 与 vDPA 设备在高地址空间场景下的兼容性问题,保障了虚拟机的正常启动与运行。目前,该修复已提交至 QEMU 社区(commit 1,commit 2),为更广泛的虚拟化生态贡献了来自百度智能云的工程实践。

4. 第 7 代 AI 机密虚拟机核心性能评估

安全不意味着牺牲性能,这是第 7 代 AI 机密虚拟机时始终坚持的设计原则。

4.1. 内存性能:几乎无感

开启 TDX 后,内存带宽与延迟几乎与普通虚拟机持平——全链路测试中细微的波动完全在预期可控范围内。高带宽敏感型业务,不需要为安全买单。

4.2.    I/O 性能:稳定可靠

Virtio 磁盘与网卡在引入 TDX 后在绝大多数场景下,性能损失可以忽略不计。整体表现与常规 KVM 机型基本持平。存储与网络敏感的生产场景,同样可以放心部署。

4.3.    GPU 性能:算力无损,带宽因卡而异

以 GEMM 为代表的典型计算任务,在机密环境下的性能达成率高达 99%,核心算力几乎没有损耗。不过主机到设备(H2D)与设备到主机(D2H)的数据传输带宽,会因不同 GPU 型号而存在差异。用户可以根据业务对 I/O 带宽的敏感程度,选择最适合的那一款,在安全隔离与传输效率之间找到最佳平衡。

总而言之,从内存到 I/O 再到 GPU 核心计算,安全增强带来的性能开销微乎其微。高敏感、高算力的业务,完全可以放心跑在第七代 AI 机密虚拟机上。

5. 在约束中构建可信 AI 算力

AI 机密虚拟机的演进,本质上是对「可信边界」在复杂计算体系中的一次重构。从 CPU 到 GPU,从内存语义到 I/O 路径,每一次工程决策,都是在安全约束与性能诉求之间寻找新的平衡点。

百度智能云所构建的,并不仅是一种产品形态,而是一种在 AI 计算时代下,重新定义数据使用方式的基础设施范式。

第 7 代 AI 机密虚拟机,已在百度智能云正式落地,并面向高敏感数据处理与大模型训练场景开放使用。未来,百度智能云将继续推动机密计算与 AI 算力的深度融合,借助英特尔®至强® 6 推出的 TDX Connect 技术,让「数据可用不可见」真正成为云上高敏感业务的基础设施,为客户的 AI 创新提供坚实、高效且安全的算力底座。