Jetson T4000与JetPack 7.1加速边缘AI推理

3 阅读11分钟

借助 NVIDIA Jetson T4000 与 NVIDIA JetPack 7.1 加速边缘与机器人领域的 AI 推理

某机构推出了 Jetson T4000 模块,将高性能 AI 与实时推理能力带到了更广泛的机器人与边缘 AI 应用中。该模块针对更严格的功耗和热设计进行了优化,T4000 提供高达 1200 FP4 TFLOPS 的 AI 算力和 64 GB 内存,在性能、效率和可扩展性之间取得了理想的平衡。凭借其节能设计和可量产的外形规格,T4000 使得先进的 AI 技术能够应用于下一代智能机器,从自主机器人到智能基础设施和工业自动化。

该模块包含 1 个 NVENC 和 1 个 NVDEC 硬件视频编解码引擎,支持实时 4K 视频编码和解码。这种均衡的设计旨在为结合了高级视觉处理、强大 I/O 能力以及出色功耗与热效率的平台而打造。

表 1. Jetson T4000 模块与 NVIDIA Jetson T5000 模块的关键规格

特性NVIDIA Jetson T4000NVIDIA Jetson T5000
AI 性能1,200 FP4 稀疏 TFLOPS2,070 FP4 稀疏 TFLOPS
GPU1,536 核 NVIDIA Blackwell 架构 GPU,配备第五代 Tensor Core,支持多实例 GPU 技术,包含 6 个 TPC2,650 核 NVIDIA Blackwell 架构 GPU,配备第五代 Tensor Core,支持多实例 GPU 技术,包含 10 个 TPC
内存64 GB 256-bit LPDDR5x | 273 GBps128 GB 256-bit LPDDR5x | 273 GBps
CPU12 核 Arm Neoverse-V3AE 64 位 CPU14 核 Arm Neoverse-V3AE 64 位 CPU
视频编码1x NVENC2x NVENC
视频解码1x NVDEC2x NVDEC
网络3x 25GbE4x 25GbE
I/O多达 8 通道 PCIe Gen5;5x I2S | 1x 音频集线器 | 2X DMI | 4x UART | 3x SPI | 13x I2C | 6x PWM 输出多达 8 通道 PCIe Gen5;5x I2S/2x 音频集线器, 2x DMI, 4x UART, 4x CAN, 3x SPI, 13x I2C, 6x PWM 输出
功耗40W-70W40W-130W

Jetson T4000 模块与 NVIDIA Jetson T5000 模块采用相同的外形规格且引脚兼容。开发者可以为 T4000 和 T5000 设计通用的载板,同时需考虑两者在散热及其他固有模块特性上的差异。

NVIDIA Jetson T4000 与 T5000 性能基准测试

Jetson T4000 和 T5000 模块在众多大语言模型、文本转语音模型以及视觉-语言-动作模型上均展现出强劲性能。Jetson T4000 相比上一代 NVIDIA Jetson AGX Orin 平台,性能提升了多达 2 倍。下表展示了 T4000 和 T5000 在主流 LLM、TTS 和 VLA 模型上的性能数据。

表 2. Jetson T5000 与 Jetson T4000 模块性能基准测试

模型家族模型Jetson T4000 (token/秒)Jetson T5000 (token/秒)T4000 与 T5000 对比
QWENQwen3-30B-A3B21820.84
QWENQwen 3 32B68830.82
NemotronNemotron 12B40610.66
DeepSeekDeepSeek R1 Distill Qwen 32B64820.78
MistralMistral 3 14B1001090.92
Kokoro TTSKokoro 82M1,1009000.82
GR00TGR00T N1.537640.92

NVIDIA JetPack 7.1:为下一代边缘 AI 打造的先进软件栈

NVIDIA JetPack 7 是 Jetson 平台最先进的软件,能够在边缘部署生成式 AI 和人形机器人应用。全新的 Jetson T4000 模块由 JetPack 7.1 驱动,并引入了多项新的软件功能,增强了 AI 和视频编解码能力。

NVIDIA TensorRT Edge-LLM:面向机器人与边缘系统的高效推理引擎

借助 JetPack 7.1,我们宣布在 Jetson Thor 平台上支持 NVIDIA TensorRT Edge-LLM。

TensorRT Edge-LLM SDK 是一个开源的 C++ SDK,用于在 Jetson 等边缘平台上高效运行 LLM 和视觉语言模型。它面向机器人及其他需要现代 LLM 智能能力,但又无法承受数据中心级计算、内存或功耗的实时系统。

目前大多数流行的 LLM 软件栈都是为云 GPU 设计的,它们拥有充足的内存、宽松的延迟限制、无处不在的 Python 服务以及作为安全网的弹性扩展。而机器人和其它边缘设备则处于不同的约束条件下,每一毫秒、每瓦特和每个运行时都可能影响物理行为。TensorRT Edge‑LLM SDK 通过将面向生产的 LLM 运行时引入 Jetson Thor 级嵌入式 GPU 等设备,填补了这一空白。

对于机器人工作负载而言,目标不仅仅是“运行一个 LLM”,而是要让它与已经饱和了 GPU 和 CPU 资源的感知、控制和规划栈并行运行。这种以边缘为先的设计意味着 LLM 运行时能够干净地集成到现有的 C++ 代码库中,遵守严格的内存预算,并在负载下提供可预测的延迟。

TensorRT Edge-LLM SDK 专注于在边缘快速高效地推理 LLM 和 VLM,起点是 PyTorch 等熟悉的训练生态系统。典型的工作流程非常直接:将训练好的模型导出为 ONNX 格式,通过 TensorRT 进行优化,然后部署一个由 SDK 在设备上端到端驱动的推理引擎。

该 SDK 的一个决定性特征是其实作为一个轻量级 C++ 工具包,最初是为某机构的自动驾驶汽车系统 DriveOS LLM SDK 中的车载系统而调优的。它不像 Python 中心化的 LLM 框架那样依赖庞杂的 Python 包、Web 服务器和后端服务,而是链接到一个专注于 C++ 的运行时,该运行时直接与 TensorRT 和 NVIDIA CUDA 交互。

与以 Python 为中心的 LLM 框架相比,这为机器人技术带来了几个实际的好处,包括:

  • 更低的开销:C++ 二进制文件避免了 Python 解释器启动成本、垃圾回收暂停和全局解释器锁相关的争用,有助于满足严格的延迟目标。
  • 更简便的实时集成:C++ 提供了对线程、内存池和调度的更直接控制,自然地契合了实时或近实时机器人软件栈的需求。
  • 更小的占用空间:更少的依赖关系简化了在 Jetson 上的部署,缩小了容器镜像,并使无线更新更可靠。

量化是最重要的手段之一。该 SDK 支持多种降低的精度,如 FP8、NVFP4 和 INT4,在正确调整的情况下,能以微小的精度损失来缩减模型权重和 KV 缓存的使用量。

图 1. 使用 Qwen3 和投机性解码的 TensorRT Edge-LLM 性能 (此处应为原图 Figure 1 的占位)

Video Codec SDK:在 Jetson Thor 上驱动实时感知与媒体处理

借助 JetPack 7.1,NVIDIA Video Codec SDK 现在已支持 Jetson Thor 平台。

Video Codec SDK 是一套全面的 API、高性能工具、示例应用程序、可重用代码和文档,能够在 Jetson Thor 平台上实现硬件加速的视频编码和解码。其核心是 NVENCODE 和 NVDECODE API,它们提供了用于高性能访问 NVENC 和 NVDEC 硬件加速器的 C 风格接口,展现了大部分硬件能力以及广泛使用的和先进的编解码器功能。

为了简化集成,该 SDK 还包括在这些 API 之上构建的可重用 C++ 类,允许应用程序轻松采用底层 NVENCODE/NVDECODE 接口提供的全部功能。

图 1 展示了 Video Codec SDK 及其驱动程序在 JetPack 7.1 板级支持包中的架构,以及相关的示例应用程序和文档。

图 2. Video Codec SDK 架构 (此处应为原图 Figure 2 的占位)

Video Codec SDK 为多媒体开发者带来了以下关键优势:

跨 NVIDIA GPU 的统一体验 借助 Video Codec SDK,开发者可以在 NVIDIA GPU 产品组合中获得一致且简化的开发体验。这种统一性消除了为不同 GPU 类别维护独立代码库或调优策略的需要,减少了工程开销。在 GPU 上进行构建的开发者可以使用 Video SDK API 将其应用程序扩展或移植到 Jetson Thor 的集成 GPU 上,而无需重新架构其视频处理流程。在嵌入式平台上工作的团队也能受益于在工作站和服务器上可用的同样成熟的 API、工具和性能优化。这种一致性不仅加速了开发和验证,还简化了长期维护、可扩展性和跨平台功能一致性。

对下一代机器人感知与多媒体应用的精细控制 Video Codec SDK 公开了 API,允许开发者将预设与调优模式配对,以精确控制质量、延迟和吞吐量,解锁灵活的特定应用编码。通过用于重建帧访问和迭代编码的 API,该 SDK 支持能自动找到感知质量所需最低码率的 CBR 工作流,在保持质量的同时削减带宽。SDK 暴露的对空间/时间自适应量化(AQ)和前瞻的控制,实现了精细的感知优化,将比特分配在最需要的地方,从而在不提高码率的情况下输出更清晰、更稳定的视频。

Video Codec SDK 由两个主要组件组成:

  • 视频用户模式驱动程序:通过 NVENCODE 和 NVDECODE API 提供对片上硬件编码器和解码器的访问。
  • Video Codec SDK 13.0:包含示例代码、头文件和文档,可通过某机构的 Video Codec SDK 网页、使用 APT 或通过某机构的 SDK Manager 进行安装。

图 3. Video Codec SDK 的组件 (此处应为原图 Figure 3 的占位)

PyNvVideoCodec 是基于某机构 Python 的视频编解码库,它提供了简单而强大的 Python API,用于在某机构 GPU 上进行硬件加速的视频编码和解码。PyNvVideoCodec 库内部使用 Video Codec SDK 的核心 C/C++ 视频编码和解码 API,并提供易于使用的 Python API。该库提供的编码和解码性能接近 Video Codec SDK。

开始使用

NVIDIA Jetson T4000 得到了来自成熟硬件合作伙伴的可量产系统生态系统的支持,使从原型到部署的过渡更加快速。开发者可以首先选择一个经过预验证的边缘系统,该系统已集成了机器人和其他物理 AI 工作负载所需的模块、电源、热设计和 I/O。许多合作伙伴系统旨在利用该模块先进的摄像头处理管道,支持 MIPI CSI 和 GMSL,以处理要求苛刻的多摄像头、实时视觉工作负载。借助 Jetson T4000 上的 16 通道 MIPI CSI,合作伙伴可以提供能够同时从多个摄像头接收数据流的平台,从而实现复杂的机器人、工业检测和自主机器应用。

这些系统旨在支持 JetPack SDK、CUDA 以及更广泛的 NVIDIA AI 软件栈。现有的应用程序和模型通常只需进行微小的更改即可运行。许多合作伙伴还提供生命周期支持、地区认证和可选的定制化服务,这有助于团队在从试点扩展到批量部署时降低供应链和合规风险。要探索可用的系统并为您的应用找到合适的方案,请访问 NVIDIA 生态系统页面。

总结

借助由 JetPack 7.1 驱动的 Jetson T4000,某机构将 Blackwell 级 AI、实时推理和先进的多媒体能力扩展到了更广泛的边缘和机器人应用中。从 LLM、语音和 VLA 工作负载的强劲性能提升,到 TensorRT Edge-LLM 和统一 Video Codec SDK 的引入,T4000 在性能、效率和软件成熟度之间实现了平衡。Jetson T4000 使开发者能够在不同性能层级上进行智能扩展,同时在边缘构建下一代自主机器、感知系统和物理 AI 解决方案。

可访问某机构的 Jetson AGX Thor 开发者套件开始体验,并下载最新的 JetPack 7.1。Jetson T4000 模块现已上市。

全面的文档、支持资源和工具可通过某机构的 Jetson 下载中心和生态系统合作伙伴获取。

如有疑问或需要指导,请与某机构开发者论坛中的专家和其他开发者交流。FINISHED