1. 产品定位与发布背景
NVIDIA Jetson Thor 是 Jetson 家族中面向 Physical AI(物理世界 AI) 与下一代机器人——尤其是 通用人形机器人(generalist humanoid robotics) ——的旗舰级边缘计算平台。Jetson AGX Thor 开发者套件与 Jetson T5000 模组面向市场发布,为开发者提供在边缘侧运行生成式推理与多模态、多传感器融合的能力。
公开信息将 Jetson Thor 定位为 2025 年 8 月 25 日 前后亮相的 Jetson 产品线中性能居首的模组方向,在 Blackwell GPU、14 核 Arm Neoverse V3AE CPU 与 128 GB LPDDR5X 等配置下,面向生成式 AI、人形机器人、实时传感器融合等资源密集型边缘场景;其与 Jetson Orin 系列无针脚兼容,更强调 高资源边缘部署 而非简单换代。
机器人产业正从「专用、固定功能」走向 通用型机器人:类似人类认知,将快速反应与高层推理、规划结合,以更灵活地适应多样任务与环境。NVIDIA 在 GTC 2025 推出的 Isaac GR00T 等平台为这一转型提供基础模型、合成数据、仿真与运行时等能力;Jetson Thor 则定位为将上述能力落到实体系统上的 超强算力载体——使机器人不必为每项新任务完全重编程序,而能加速基础模型在操作、导航、复杂指令跟随等场景中的落地。
2. 为何需要「通用人形」四层架构
构建典型人形机器人,业界常将能力划分为四层(可对应软硬件分工):
| 层次 | 作用 |
|---|---|
| 硬件抽象 | 整合关键感知与执行通道,使机器人能感知环境并物理交互。 |
| 实时控制框架 | 低延迟、高精度运动控制;延迟与安全响应密切相关。 |
| 感知与规划 | 环境理解、抓取与运动规划、定位与物体识别等;相对控制层可容忍略长计算时间以换取决策质量。 |
| 高层推理 | 场景理解、复杂任务规划、自然语言交互等;可接受更长推理时延以支持深度推理与适应性。 |
Jetson Thor 的设计目标是在 功耗受限的边缘形态 下,为后两层尤其是 生成式推理 + 多模态传感 提供接近数据中心级的算力密度,并与 NVIDIA 机器人与传感器软件栈协同。
3. 硬件概览
3.1 计算与内存
- GPU:NVIDIA Blackwell 架构;典型公开规格包括 2560 个 CUDA 核心、第五代 Tensor Core、支持 MIG(多实例 GPU) (如 T5000 为 10 个 TPC 的 MIG 配置)。MIG 可用于工作负载隔离。算力量级常见表述为 FP4(稀疏)约 2070 TFLOPS、FP8(稠密)约 1035 TFLOPS、FP32 约 8 TFLOPS 等级别(以 NVIDIA 正式数据手册为准)。
- CPU:14 核 Arm Neoverse-V3AE(64 位) ,最高约 2.6 GHz;缓存层次常见描述为 每核 64 KB L1(指令+数据)、1 MB L2、共享 16 MB L3,以支撑并行负载。
- 内存:128 GB、256-bit LPDDR5X,带宽约 273 GB/s。在 CUDA 13.0 路线下强调 完整 UVM 一致性,GPU 可通过主机页表访问 可分页主机内存(如
mmap/malloc缓冲区),减少显式cudaMemcpy,并改善统一内存相关开发体验。
3.2 视觉、多媒体与 I/O
- 可编程视觉加速器:第三代 PVA(PVA v3.0) ;另有光流等加速单元。
- 编解码:双 NVDEC/NVENC;典型能力量级包括多路 8K/4K 解码与多路 4K 编码等(具体路数与格式以官方规格表为准,如多路 4Kp60 编码、8Kp30 解码等)。
- 相机与显示:可通过 HSB、16 路 MIPI CSI-2 及虚拟通道等支持多路相机;开发者套件含 QSFP 槽位(4×25GbE)、多千兆 RJ45、多 USB 等,便于高速传感器融合与外设扩展。
- PCIe / 存储:PCIe Gen5(如 x8+x4+x2 等组合);模组支持 NVMe(PCIe) 与 USB 3.2 SSD。
- 功耗与尺寸:模组功耗常见表述为 约 40 W~130 W 可配置;另有 约 75~120 W 可配置(最高约 130 W) 、约 100×87 mm、699 针 连接器与散热板设计等公开参数。与 Jetson Orin 相比,Thor TDP 更高、封装不兼容,面向算力与 I/O 密度更高的边缘节点。
3.3 安全与功能安全
- 功能安全岛,面向 ISO 13849 / IEC 61508 等方向;
- 安全启动、密钥隔离、OP-TEE 等;
- NUMA 感知内存分配,便于将原数据中心 GPU(dGPU)类应用迁移到 Thor 的单节点语义下。
3.4 模组规格对比(Jetson T5000 / Jetson T4000*)
*T4000 相关数据在公开材料中标注为初步(preliminary)信息,如有变更以 NVIDIA 官方为准。
| 规格项 | Jetson T5000 | Jetson T4000* |
|---|---|---|
| AI 性能(Sparse FP4) | 2070 TFLOPS | 1200 TFLOPS |
| AI 性能(Dense FP4 / Sparse FP8 / Sparse INT8) | 1035 TFLOPS | 600 TFLOPS |
| AI 性能(Dense FP8 / Sparse FP16) | 517 TFLOPS | 300 TFLOPS |
| GPU | 2560 核 NVIDIA Blackwell,96 个第五代 Tensor Core,MIG,10 个 TPC | 1536 核 Blackwell,64 个第五代 Tensor Core,MIG,6 个 TPC |
| CPU | 14 核 Arm Neoverse-V3AE 64 位 | 12 核 Arm Neoverse-V3AE 64 位 |
| 内存 | 128 GB,256-bit LPDDR5X,273 GB/s | 64 GB,256-bit LPDDR5X,273 GB/s |
| 频率 | GPU 最高 1.57 GHz;CPU 最高 2.6 GHz | 同左 |
| 存储 | 支持 PCIe NVMe;支持 USB 3.2 SSD | 同左 |
| 视觉加速器 | PVA v3.0 | PVA v3.0 |
| 视频编码 | 最高约 6×4Kp60(H.265/H.264) | 最高约 6×4Kp60(H.265/H.264)* |
| 视频解码 | 最高约 4×8Kp30(H.265);最高约 4×4Kp60(H.264) | 带 * 的初值 |
| 相机 | 经 HSB 最高约 20 路;经 16 路 MIPI CSI-2 最高约 6 路;虚拟通道 C-PHY 2.1 / D-PHY 2.1 等 | 同左 |
| 显示 | 4× 共享 HDMI 2.1;VESA DisplayPort 1.4a(HBR2,MST) | 同左 |
| 功耗 | 约 40 W~130 W | 约 40 W~70 W |
3.5 Thor 关键硬件参数一览(增强规格摘要)
下列条目与上文互补,侧重缓存层次、多媒体频率、I/O 与安全等公开细化描述。
| 类别 | 内容摘要 |
|---|---|
| GPU | Blackwell;2560 个 CUDA 核心;96 个第五代 Tensor Core;支持 MIG;公开算力示例含约 2070 TFLOPS FP4(sparse)、1035 TFLOPS FP8(dense)、约 8 TFLOPS FP32 等量级 |
| CPU | 14 核 Arm Neoverse V3AE,最高约 2.6 GHz;常见描述为每核 64 KB L1(指令+数据)、每核 1 MB L2、共享 16 MB L3 |
| 内存 | 128 GB LPDDR5X(如 4266 MHz、256-bit、约 273 GB/s);配合 CUDA 13 路线中的 UVM 一致性等能力 |
| 多媒体 | 双 NVDEC/NVENC(如约 1.56 GHz);多路 8K/4K 解码与多路 4K 编码等典型能力;PVA 3.0;双 HiFi 5 DSP 等 |
| I/O 与接口 | 如 16×CSI-2;4×25 GbE;PCIe Gen5(x8+x4+x2 等);多路 USB 3.2;CAN、UART、I2C、SPI、PWM、GPIO;DMABUF 零拷贝等 |
| 安全 / 功能安全 | 功能安全岛(如 ISO 13849 / IEC 61508 方向);安全启动、密钥隔离、OP-TEE 等 |
| 功耗与结构 | 常见描述为约 75~120 W 可配置(最高约 130 W);约 100×87 mm;约 699 针连接器与散热板等 |
3.6 Jetson AGX Thor 开发者套件载板规格
| 项目 | 规格 |
|---|---|
| 集成模组 | NVIDIA Jetson T5000 |
| 存储 | M.2 Key M 槽位集成 1 TB NVMe |
| 相机 | 经 QSFP 的 HSB 相机;USB 相机 |
| PCIe | M.2 Key M:x4 PCIe Gen5(预装 1 TB NVMe);M.2 Key E:x1 PCIe Gen5(预装 Wi-Fi 6E + 蓝牙) |
| USB | 2×USB Type-A 3.2 Gen2;2×USB Type-C 3.1 Gen1;1×USB Type-C(仅 Debug) |
| 网络 | 1×约 5GbE RJ45;1×QSFP28(4×25GbE) |
| Wi-Fi | 802.11ax Wi-Fi 6E |
| 显示 | 1×HDMI 2.0b;1×DisplayPort 1.4a |
| 其他 I/O | 2×13-pin CAN;2×6-pin Automation;2×5-pin;JTAG;4-pin 风扇(12V、PWM、Tach);2×5-pin 音频面板;RTC 备份电池接口;电源与强制恢复、复位键等 |
| 机械尺寸 | 约 243.19×112.40×56.88 mm(高度含脚垫、载板、模组与散热方案) |
4. Blackwell 与 AI 推理:Transformer Engine、FP4 与 MIG
- Transformer Engine + 原生 FP4:在 Blackwell 上支持 FP4 量化,并可 在 FP4 与 FP8 间动态切换,结合更高内存带宽,加速生成式工作负载中的 prefill 与 decode。
- MIG:单 GPU 划分为 相互隔离的实例,为关键任务 预留算力,其余实例并行运行非关键任务,适合 混合关键型机器人。相关软件方向还包括 MPS(多进程服务) 、Green Context 等与 确定性、低延迟 相关的机制,以及 NVML 等监控能力的持续扩展。
相对 Jetson AGX Orin,公开材料中常见 AI 算力最高约 7.5×、能效约 3.5× 等定性对比(需在具体功耗模式与基准下理解);亦可见 约 3~4× 等不同量级的表述,差异往往来自 指标定义(TOPS/TFLOPS/场景) 与测试条件,应以 NVIDIA 官方规格与白皮书为准。
5. 软件栈:JetPack 7、CUDA 13.0 与 SBSA
5.1 JetPack 7 与系统基线
- JetPack 7:Linux 6.8、Ubuntu 24.04 LTS、最新 NVIDIA AI 软件栈;
- 面向实时、高吞吐物理 AI:Holoscan Sensor Bridge、MIG、PREEMPT_RT(可抢占实时内核) 等,强化高速传感器融合与运动规划等任务;
- 支持 Cosmos Reason 等面向机器人与 Physical AI 的开放可定制推理 VLM(如 7B 规模)。
5.2 SBSA 与统一 CUDA
- SBSA(Server Base System Architecture) :Jetson 软件与 Arm 服务器级设计对齐,有利于 OS 支持、可移植性与企业集成。
- CUDA 13.0:强调在 多种 Arm 目标 上 统一的 CUDA 13.0 安装,减少工具链碎片化;并包括 面向 SBSA 合规服务器与嵌入式(如 Thor)的统一工具链、在 GB200/DGX 等平台 构建一次 并在 Thor 上部署(Blackwell 上运行时优化)、容器与 CI 流程统一 等叙述。技术要点还涵盖 真实统一虚拟内存(UVM)与全一致性、DMABUF 与第三方驱动 零拷贝、MPS、Green Context、nvidia-smi/NVML 监控与后续 JetPack 扩展等。
开发者套件常见预装或首发组合包括 Isaac ROS 4.0、CUDA 13.0、TensorRT、RTX AI 与 PREEMPT_RT 内核 等。
6. 边缘侧生成式 AI 与基准
6.1 模型类型
Jetson Thor 面向 VLA(视觉-语言-动作) 、LLM、VLM 等生成式模型;典型示例包括 Isaac GR00T N1.5 及常见开源大模型与视觉语言模型。
6.2 生成式推理与多模态负载
- 相较 Jetson Orin,Thor 在生成式推理上公开宣称可达约 5× 量级的提升;结合 FP4 与 投机解码(speculative decoding) 等,还可再获得约 2× 量级的额外加速(依模型与配置而定)。
- 多模型、多请求场景下,Qwen2.5-VL-3B 与 Llama 3.2 3B 等同时处理多路请求时,首 Token 延迟(TTFT) 与 每输出 Token 时间(TPOT) 可优于实时交互常见阈值(如 TTFT 远低于 200 ms、TPOT 远低于 50 ms 等量级叙述)。
Jetson AGX Thor 与 Jetson AGX Orin 吞吐对比(输出 tokens/s)
| 类型 | 模型 | Jetson AGX Thor | Jetson AGX Orin | 加速比 |
|---|---|---|---|---|
| LLM | Llama 3.1 8B | 150.8 | 112.33 | 1.34 |
| LLM | Llama 3.3 70B | 12.64 | 7.38 | 1.71 |
| LLM | Qwen3-30B-A3B | 226.42 | 76.69 | 2.95 |
| LLM | Qwen3-32B | 79.1 | 16.84 | 4.70 |
| LLM | DeepSeek-R1-Distill-Qwen-7B | 304.76 | 180.41 | 1.69 |
| LLM | DeepSeek-R1-Distill-Qwen-32B | 82.63 | 16.96 | 4.87 |
| VLM | Qwen2.5-VL-3B | 356.86 | 216 | 1.65 |
| VLM | Qwen2.5-VL-7B | 252 | 154.02 | 1.64 |
| VLM | Llama 3.2 11B Vision | 69.63 | 44.22 | 1.57 |
| VLA | GR00T N1 | 46.7 | 18.5 | 2.52 |
| VLA | GR00T N1.5 | 41.5 | 15.2 | 2.74 |
测试条件(公开材料摘要):输入序列长度 2048,输出序列长度 128,最大并发 8;LLM 与 VLM 使用 VLLM,VLA 使用 TensorRT;Jetson AGX Thor 与 AGX Orin 均为 MAXN 功耗模式。实际结果随软件版本与调参变化,以 NVIDIA 最新发布为准。
6.3 与 NVIDIA 应用栈的衔接
- NVIDIA Isaac:CUDA 加速库、框架与模型,覆盖 AMR、机械臂、人形等;Thor 面向 GR00T N1.5 等重负载模型做实时人机交互与感知。
- NVIDIA Metropolis / VSS(Video Search and Summarization) :从边缘相机构建 视觉智能体,用于质检、安防、体育与应急等场景的实时告警、摘要与问答。
- NVIDIA Holoscan:AI 传感器处理与 软件定义实时 AI;在 Thor 上可 安全分区 并发工作流,保证 确定性、容错与防数据泄漏。Holoscan Sensor Bridge、Camera over Ethernet 等可将多类传感器经以太网接入,数据 直达 GPU 内存,降低延迟与 CPU 负担;生态侧常见配套还包括 MIPI CSI、GStreamer、TensorRT FP8/INT8 等集成与调优服务。
7. 典型应用场景
- 机器人 / 自主系统:实时 SLAM、多智能体、人形与 AMR 的传感器融合(25GbE 等)、混合关键任务隔离(MIG/MPS/Green Context 等机制)。
- 车载与工业:车载感知、缺陷检测、预测性维护;UVM 一致内存与 DMABUF 共享缓冲降低拷贝开销。
- 医疗与边缘 AI:手术影像、诊断辅助、8K 多路解码;内存内 LLM 用于隐私敏感分析。
- 智慧城市与智能终端:自助机、无人机、城市级推理;SBSA/NUMA 可移植性。
生态方面,Jetson 公开资料提及 1000+ 合作伙伴(ISV、云厂商、平台软件、OEM/ODM、传感器、分销商等)。具体集成方案与合作条款需与对应厂商确认。
8. 总结
NVIDIA Jetson Thor 将 Blackwell GPU、大容量 LPDDR5X、Neoverse V3AE 多核 CPU 与高带宽 I/O(含 4×25GbE、PCIe Gen5、多路相机) 集成于边缘 SoM/开发者套件形态,配合 JetPack 7、CUDA 13.0、SBSA 对齐 与 MIG/FP4/Transformer Engine 等,面向 Physical AI、通用人形机器人 与 端侧生成式多模态 AI。选型与部署请以 NVIDIA Jetson AGX Thor 开发者套件数据手册 与 JetPack 发布说明 等官方资料为准。