WebGPU基础（三）CPU与GPU如何传递数据

2024-09-05 422 阅读6分钟

风起提示：由于技术的发展风起云涌，需留意文章时效，2024-09-06。

回顾

上一章我们介绍了内存、显存以及各种缓冲区，CPU侧和GPU侧都准备好了数据存储的地方，那通过什么来传递数据呢，这就引出了消息总线。

专用总线

NVIDIA NVLink 和 PCIe（Peripheral Component Interconnect Express）是两种不同的互连技术，它们在不同的应用场景下具有各自的优点和局限性。下面是对这两种技术的比较：

NVLink

定义：

- NVLink 是 NVIDIA 开发的一种高速互连技术，旨在提高 GPU 之间的通信速度和带宽。NVLink 设计用于解决高性能计算（HPC）、深度学习和其他计算密集型任务中的数据传输瓶颈。

特点：

- 高带宽：NVLink 提供比 PCIe 更高的带宽。例如，NVLink 2.0 可以提供高达 300 GB/s 的带宽，而 PCIe 3.0 的带宽大约为 16 GB/s（x16 链路）。
- 低延迟：NVLink 的延迟比 PCIe 低得多，可以显著减少数据传输的时间。
- 直接通信：NVLink 允许 GPU 直接与其他 GPU 或 CPU 通信，而不需要通过 PCIe 总线。
- 支持多链路：NVLink 支持多个链路，可以进一步增加带宽。

应用场景：

- 高性能计算：在 HPC 场景中，NVLink 能够显著提高 GPU 之间的数据交换速度，从而提升计算性能。
- 深度学习：对于大规模的神经网络训练，NVLink 可以帮助更快地同步权重和梯度，加速训练过程。

PCIe

定义：

- PCIe 是一种广泛使用的高速串行计算机扩展总线标准，用于连接各种硬件组件，包括 GPU、SSD、网卡等。

特点：

- 通用性：PCIe 是一个开放标准，被广泛支持，并且适用于多种类型的硬件设备。
- 灵活性：PCIe 支持多种速率（如 x1, x4, x8, x16），可以根据设备的需求进行配置。
- 成熟度：PCIe 技术已经非常成熟，被大多数现代计算机平台所支持。
- 兼容性：几乎所有现代主板都支持 PCIe 接口，使得 PCIe 设备易于安装和使用。

应用场景：

- 通用计算：对于一般的计算任务，PCIe 提供了足够的带宽和灵活性。
- 多用途硬件：除了 GPU 之外，PCIe 还用于连接其他高性能设备，如高速存储设备和网络适配器。

比较总结

带宽：NVLink 的带宽远高于 PCIe，特别是在最新的 NVLink 版本中。这对于需要大量数据交换的任务（如深度学习和 HPC）非常重要。
延迟：NVLink 的延迟低于 PCIe，这对于实时处理和高性能计算尤其重要。
通信方式：NVLink 支持直接通信，而 PCIe 则需要通过北桥或南桥芯片进行数据传输。
成本和普及性：PCIe 是一个更为普遍的标准，几乎所有的现代计算机都支持 PCIe。相比之下，NVLink 主要用于 NVIDIA 的高端 GPU 和服务器领域，成本较高且应用范围相对较窄。

选择建议

对于需要极高带宽和低延迟的应用（如深度学习、HPC），NVLink 是更优的选择，因为它可以显著提高性能。
对于通用计算任务或不需要极端性能的应用，PCIe 已经足够，并且具有更好的兼容性和成本效益。

总之，NVLink 和 PCIe 各有所长，选择哪种技术取决于具体的应用需求、性能要求以及预算限制。在高性能计算和深度学习领域，NVLink 提供了显著的优势；而在通用计算和其他应用场景中，PCIe 仍然是一个可靠且经济的选择。

传递方式

CPU与GPU之间的数据传递通常有两种主要的方式：显式复制（Explicit Copy）和透明迁移（Transparent Migration）。这两种方式各有优劣，适用的场景也不尽相同。

GPU显存映射属于透明迁移，无论哪种迁移都受限于专用总线的带宽。

显式复制（Explicit Copy）

定义：

- 显式复制是指开发者明确地指定何时将数据从CPU复制到GPU，或从GPU复制回CPU。这意味着开发者需要在代码中显式地调用复制函数或API来管理数据的传输。

优点：

- 细粒度控制：开发者可以精确控制数据的复制时机和方式，这对于优化性能非常有用。
- 易于调试：由于数据复制是由开发者显式控制的，因此更容易理解和调试数据传输相关的错误。

缺点：

- 额外工作量：开发者需要编写更多的代码来管理数据复制，增加了开发的复杂性。
- 潜在的性能瓶颈：如果复制操作不当，可能会成为性能瓶颈，特别是在需要频繁复制大量数据的情况下。

透明迁移（Transparent Migration）

定义：

- 透明迁移是指由系统或库自动管理数据在CPU和GPU之间的传输。开发者只需要声明数据应该在何处可用，而具体的迁移操作由系统自动完成。

优点：

- 简化编程：开发者不需要关心数据的具体传输细节，可以专注于算法实现。
- 自动优化：系统可以根据实际情况自动选择最佳的迁移策略，减少手动管理数据复制的负担。

缺点：

- 潜在的性能损失：自动迁移可能会导致一些不必要的数据传输，特别是当系统无法完全理解应用的需求时。
- 黑盒操作：透明迁移的具体实现细节对开发者来说是不透明的，这可能导致难以调试或优化某些性能问题。

效率对比

显式复制在某些情况下可以提供更高的效率，特别是当开发者能够精确地控制数据复制的时机和频率时。这种方式适合于那些对性能要求极高且数据复制模式固定的应用场景。
透明迁移通常更适合于那些数据复制模式不固定或者开发者希望简化编程复杂性的场景。它通过自动化管理数据传输来减轻开发者的负担，但可能会因为自动迁移而导致一些额外的开销。

选择建议

如果应用程序对性能极其敏感，并且数据复制模式相对固定，那么显式复制可能更合适，因为它允许开发者精确控制数据传输，从而最大化性能。
如果应用程序的数据复制模式较为复杂，或者开发者希望简化代码并减少维护成本，那么透明迁移可能是一个更好的选择，因为它可以自动处理数据迁移，减少手工管理的复杂性。

最终的选择取决于具体的应用需求、性能目标以及开发者的偏好。在实践中，很多应用程序可能会结合使用这两种方法，以达到最佳的性能和可维护性平衡。

更多精彩内容可关注风起的博客，微信公众号：听风说图