NVIDIA Jetson Thor 简介

2 阅读12分钟

1. 产品定位与发布背景

NVIDIA Jetson Thor 是 Jetson 家族中面向 Physical AI(物理世界 AI) 与下一代机器人——尤其是 通用人形机器人(generalist humanoid robotics) ——的旗舰级边缘计算平台。Jetson AGX Thor 开发者套件Jetson T5000 模组面向市场发布,为开发者提供在边缘侧运行生成式推理与多模态、多传感器融合的能力。

公开信息将 Jetson Thor 定位为 2025 年 8 月 25 日 前后亮相的 Jetson 产品线中性能居首的模组方向,在 Blackwell GPU14 核 Arm Neoverse V3AE CPU128 GB LPDDR5X 等配置下,面向生成式 AI、人形机器人、实时传感器融合等资源密集型边缘场景;其与 Jetson Orin 系列无针脚兼容,更强调 高资源边缘部署 而非简单换代。

机器人产业正从「专用、固定功能」走向 通用型机器人:类似人类认知,将快速反应与高层推理、规划结合,以更灵活地适应多样任务与环境。NVIDIA 在 GTC 2025 推出的 Isaac GR00T 等平台为这一转型提供基础模型、合成数据、仿真与运行时等能力;Jetson Thor 则定位为将上述能力落到实体系统上的 超强算力载体——使机器人不必为每项新任务完全重编程序,而能加速基础模型在操作、导航、复杂指令跟随等场景中的落地。


2. 为何需要「通用人形」四层架构

构建典型人形机器人,业界常将能力划分为四层(可对应软硬件分工):

层次作用
硬件抽象整合关键感知与执行通道,使机器人能感知环境并物理交互。
实时控制框架低延迟、高精度运动控制;延迟与安全响应密切相关。
感知与规划环境理解、抓取与运动规划、定位与物体识别等;相对控制层可容忍略长计算时间以换取决策质量。
高层推理场景理解、复杂任务规划、自然语言交互等;可接受更长推理时延以支持深度推理与适应性。

Jetson Thor 的设计目标是在 功耗受限的边缘形态 下,为后两层尤其是 生成式推理 + 多模态传感 提供接近数据中心级的算力密度,并与 NVIDIA 机器人与传感器软件栈协同。


3. 硬件概览

3.1 计算与内存

  • GPUNVIDIA Blackwell 架构;典型公开规格包括 2560 个 CUDA 核心第五代 Tensor Core、支持 MIG(多实例 GPU) (如 T5000 为 10 个 TPC 的 MIG 配置)。MIG 可用于工作负载隔离。算力量级常见表述为 FP4(稀疏)约 2070 TFLOPSFP8(稠密)约 1035 TFLOPSFP32 约 8 TFLOPS 等级别(以 NVIDIA 正式数据手册为准)。
  • CPU14 核 Arm Neoverse-V3AE(64 位) ,最高约 2.6 GHz;缓存层次常见描述为 每核 64 KB L1(指令+数据)、1 MB L2、共享 16 MB L3,以支撑并行负载。
  • 内存128 GB、256-bit LPDDR5X,带宽约 273 GB/s。在 CUDA 13.0 路线下强调 完整 UVM 一致性,GPU 可通过主机页表访问 可分页主机内存(如 mmap/malloc 缓冲区),减少显式 cudaMemcpy,并改善统一内存相关开发体验。

3.2 视觉、多媒体与 I/O

  • 可编程视觉加速器:第三代 PVA(PVA v3.0) ;另有光流等加速单元。
  • 编解码:双 NVDEC/NVENC;典型能力量级包括多路 8K/4K 解码与多路 4K 编码等(具体路数与格式以官方规格表为准,如多路 4Kp60 编码、8Kp30 解码等)。
  • 相机与显示:可通过 HSB16 路 MIPI CSI-2 及虚拟通道等支持多路相机;开发者套件含 QSFP 槽位(4×25GbE)、多千兆 RJ45、多 USB 等,便于高速传感器融合与外设扩展。
  • PCIe / 存储PCIe Gen5(如 x8+x4+x2 等组合);模组支持 NVMe(PCIe)USB 3.2 SSD
  • 功耗与尺寸:模组功耗常见表述为 约 40 W~130 W 可配置;另有 约 75~120 W 可配置(最高约 130 W)约 100×87 mm699 针 连接器与散热板设计等公开参数。与 Jetson Orin 相比,Thor TDP 更高、封装不兼容,面向算力与 I/O 密度更高的边缘节点。

3.3 安全与功能安全

  • 功能安全岛,面向 ISO 13849 / IEC 61508 等方向;
  • 安全启动、密钥隔离、OP-TEE 等;
  • NUMA 感知内存分配,便于将原数据中心 GPU(dGPU)类应用迁移到 Thor 的单节点语义下。

3.4 模组规格对比(Jetson T5000 / Jetson T4000*)

*T4000 相关数据在公开材料中标注为初步(preliminary)信息,如有变更以 NVIDIA 官方为准。

规格项Jetson T5000Jetson T4000*
AI 性能(Sparse FP4)2070 TFLOPS1200 TFLOPS
AI 性能(Dense FP4 / Sparse FP8 / Sparse INT8)1035 TFLOPS600 TFLOPS
AI 性能(Dense FP8 / Sparse FP16)517 TFLOPS300 TFLOPS
GPU2560 核 NVIDIA Blackwell,96 个第五代 Tensor Core,MIG,10 个 TPC1536 核 Blackwell,64 个第五代 Tensor Core,MIG,6 个 TPC
CPU14 核 Arm Neoverse-V3AE 64 位12 核 Arm Neoverse-V3AE 64 位
内存128 GB,256-bit LPDDR5X,273 GB/s64 GB,256-bit LPDDR5X,273 GB/s
频率GPU 最高 1.57 GHz;CPU 最高 2.6 GHz同左
存储支持 PCIe NVMe;支持 USB 3.2 SSD同左
视觉加速器PVA v3.0PVA v3.0
视频编码最高约 6×4Kp60(H.265/H.264)最高约 6×4Kp60(H.265/H.264)*
视频解码最高约 4×8Kp30(H.265);最高约 4×4Kp60(H.264)带 * 的初值
相机经 HSB 最高约 20 路;经 16 路 MIPI CSI-2 最高约 6 路;虚拟通道 C-PHY 2.1 / D-PHY 2.1 等同左
显示4× 共享 HDMI 2.1;VESA DisplayPort 1.4a(HBR2,MST)同左
功耗约 40 W~130 W约 40 W~70 W

3.5 Thor 关键硬件参数一览(增强规格摘要)

下列条目与上文互补,侧重缓存层次、多媒体频率、I/O 与安全等公开细化描述。

类别内容摘要
GPUBlackwell;2560 个 CUDA 核心;96 个第五代 Tensor Core;支持 MIG;公开算力示例含约 2070 TFLOPS FP4(sparse)、1035 TFLOPS FP8(dense)、约 8 TFLOPS FP32 等量级
CPU14 核 Arm Neoverse V3AE,最高约 2.6 GHz;常见描述为每核 64 KB L1(指令+数据)、每核 1 MB L2、共享 16 MB L3
内存128 GB LPDDR5X(如 4266 MHz、256-bit、约 273 GB/s);配合 CUDA 13 路线中的 UVM 一致性等能力
多媒体双 NVDEC/NVENC(如约 1.56 GHz);多路 8K/4K 解码与多路 4K 编码等典型能力;PVA 3.0;双 HiFi 5 DSP 等
I/O 与接口如 16×CSI-2;4×25 GbE;PCIe Gen5(x8+x4+x2 等);多路 USB 3.2;CAN、UART、I2C、SPI、PWM、GPIO;DMABUF 零拷贝等
安全 / 功能安全功能安全岛(如 ISO 13849 / IEC 61508 方向);安全启动、密钥隔离、OP-TEE 等
功耗与结构常见描述为约 75~120 W 可配置(最高约 130 W);约 100×87 mm;约 699 针连接器与散热板等

3.6 Jetson AGX Thor 开发者套件载板规格

项目规格
集成模组NVIDIA Jetson T5000
存储M.2 Key M 槽位集成 1 TB NVMe
相机经 QSFP 的 HSB 相机;USB 相机
PCIeM.2 Key M:x4 PCIe Gen5(预装 1 TB NVMe);M.2 Key E:x1 PCIe Gen5(预装 Wi-Fi 6E + 蓝牙)
USB2×USB Type-A 3.2 Gen2;2×USB Type-C 3.1 Gen1;1×USB Type-C(仅 Debug)
网络1×约 5GbE RJ45;1×QSFP28(4×25GbE)
Wi-Fi802.11ax Wi-Fi 6E
显示1×HDMI 2.0b;1×DisplayPort 1.4a
其他 I/O2×13-pin CAN;2×6-pin Automation;2×5-pin;JTAG;4-pin 风扇(12V、PWM、Tach);2×5-pin 音频面板;RTC 备份电池接口;电源与强制恢复、复位键等
机械尺寸约 243.19×112.40×56.88 mm(高度含脚垫、载板、模组与散热方案)

4. Blackwell 与 AI 推理:Transformer Engine、FP4 与 MIG

  • Transformer Engine + 原生 FP4:在 Blackwell 上支持 FP4 量化,并可 在 FP4 与 FP8 间动态切换,结合更高内存带宽,加速生成式工作负载中的 prefill 与 decode
  • MIG:单 GPU 划分为 相互隔离的实例,为关键任务 预留算力,其余实例并行运行非关键任务,适合 混合关键型机器人。相关软件方向还包括 MPS(多进程服务)Green Context 等与 确定性、低延迟 相关的机制,以及 NVML 等监控能力的持续扩展。

相对 Jetson AGX Orin,公开材料中常见 AI 算力最高约 7.5×能效约 3.5× 等定性对比(需在具体功耗模式与基准下理解);亦可见 约 3~4× 等不同量级的表述,差异往往来自 指标定义(TOPS/TFLOPS/场景) 与测试条件,应以 NVIDIA 官方规格与白皮书为准


5. 软件栈:JetPack 7、CUDA 13.0 与 SBSA

5.1 JetPack 7 与系统基线

  • JetPack 7Linux 6.8Ubuntu 24.04 LTS、最新 NVIDIA AI 软件栈
  • 面向实时、高吞吐物理 AI:Holoscan Sensor BridgeMIGPREEMPT_RT(可抢占实时内核) 等,强化高速传感器融合与运动规划等任务;
  • 支持 Cosmos Reason 等面向机器人与 Physical AI 的开放可定制推理 VLM(如 7B 规模)。

5.2 SBSA 与统一 CUDA

  • SBSA(Server Base System Architecture) :Jetson 软件与 Arm 服务器级设计对齐,有利于 OS 支持、可移植性与企业集成
  • CUDA 13.0:强调在 多种 Arm 目标统一的 CUDA 13.0 安装,减少工具链碎片化;并包括 面向 SBSA 合规服务器与嵌入式(如 Thor)的统一工具链、在 GB200/DGX 等平台 构建一次 并在 Thor 上部署(Blackwell 上运行时优化)、容器与 CI 流程统一 等叙述。技术要点还涵盖 真实统一虚拟内存(UVM)与全一致性DMABUF 与第三方驱动 零拷贝MPSGreen Contextnvidia-smi/NVML 监控与后续 JetPack 扩展等。

开发者套件常见预装或首发组合包括 Isaac ROS 4.0CUDA 13.0TensorRTRTX AIPREEMPT_RT 内核 等。


6. 边缘侧生成式 AI 与基准

6.1 模型类型

Jetson Thor 面向 VLA(视觉-语言-动作)LLMVLM 等生成式模型;典型示例包括 Isaac GR00T N1.5 及常见开源大模型与视觉语言模型。

6.2 生成式推理与多模态负载

  • 相较 Jetson Orin,Thor 在生成式推理上公开宣称可达约 量级的提升;结合 FP4投机解码(speculative decoding) 等,还可再获得约 量级的额外加速(依模型与配置而定)。
  • 多模型、多请求场景下,Qwen2.5-VL-3BLlama 3.2 3B 等同时处理多路请求时,首 Token 延迟(TTFT)每输出 Token 时间(TPOT) 可优于实时交互常见阈值(如 TTFT 远低于 200 ms、TPOT 远低于 50 ms 等量级叙述)。

Jetson AGX Thor 与 Jetson AGX Orin 吞吐对比(输出 tokens/s)

类型模型Jetson AGX ThorJetson AGX Orin加速比
LLMLlama 3.1 8B150.8112.331.34
LLMLlama 3.3 70B12.647.381.71
LLMQwen3-30B-A3B226.4276.692.95
LLMQwen3-32B79.116.844.70
LLMDeepSeek-R1-Distill-Qwen-7B304.76180.411.69
LLMDeepSeek-R1-Distill-Qwen-32B82.6316.964.87
VLMQwen2.5-VL-3B356.862161.65
VLMQwen2.5-VL-7B252154.021.64
VLMLlama 3.2 11B Vision69.6344.221.57
VLAGR00T N146.718.52.52
VLAGR00T N1.541.515.22.74

测试条件(公开材料摘要):输入序列长度 2048,输出序列长度 128,最大并发 8;LLM 与 VLM 使用 VLLM,VLA 使用 TensorRT;Jetson AGX Thor 与 AGX Orin 均为 MAXN 功耗模式。实际结果随软件版本与调参变化,以 NVIDIA 最新发布为准。

6.3 与 NVIDIA 应用栈的衔接

  • NVIDIA Isaac:CUDA 加速库、框架与模型,覆盖 AMR、机械臂、人形等;Thor 面向 GR00T N1.5 等重负载模型做实时人机交互与感知。
  • NVIDIA Metropolis / VSS(Video Search and Summarization) :从边缘相机构建 视觉智能体,用于质检、安防、体育与应急等场景的实时告警、摘要与问答。
  • NVIDIA Holoscan:AI 传感器处理与 软件定义实时 AI;在 Thor 上可 安全分区 并发工作流,保证 确定性、容错与防数据泄漏Holoscan Sensor BridgeCamera over Ethernet 等可将多类传感器经以太网接入,数据 直达 GPU 内存,降低延迟与 CPU 负担;生态侧常见配套还包括 MIPI CSIGStreamerTensorRT FP8/INT8 等集成与调优服务。

7. 典型应用场景

  • 机器人 / 自主系统:实时 SLAM、多智能体、人形与 AMR 的传感器融合(25GbE 等)、混合关键任务隔离(MIG/MPS/Green Context 等机制)。
  • 车载与工业:车载感知、缺陷检测、预测性维护;UVM 一致内存与 DMABUF 共享缓冲降低拷贝开销。
  • 医疗与边缘 AI:手术影像、诊断辅助、8K 多路解码内存内 LLM 用于隐私敏感分析。
  • 智慧城市与智能终端:自助机、无人机、城市级推理;SBSA/NUMA 可移植性。

生态方面,Jetson 公开资料提及 1000+ 合作伙伴(ISV、云厂商、平台软件、OEM/ODM、传感器、分销商等)。具体集成方案与合作条款需与对应厂商确认。


8. 总结

NVIDIA Jetson ThorBlackwell GPU、大容量 LPDDR5XNeoverse V3AE 多核 CPU 与高带宽 I/O(含 4×25GbE、PCIe Gen5、多路相机) 集成于边缘 SoM/开发者套件形态,配合 JetPack 7CUDA 13.0SBSA 对齐MIG/FP4/Transformer Engine 等,面向 Physical AI通用人形机器人端侧生成式多模态 AI。选型与部署请以 NVIDIA Jetson AGX Thor 开发者套件数据手册JetPack 发布说明 等官方资料为准。