NVIDIA Jetson Thor 简介NVIDIA Jetson Thor 简介 1. 产品定位与发布背景 NVID

1. 产品定位与发布背景

NVIDIA Jetson Thor 是 Jetson 家族中面向 Physical AI（物理世界 AI） 与下一代机器人——尤其是 通用人形机器人（generalist humanoid robotics） ——的旗舰级边缘计算平台。Jetson AGX Thor 开发者套件与 Jetson T5000 模组面向市场发布，为开发者提供在边缘侧运行生成式推理与多模态、多传感器融合的能力。

公开信息将 Jetson Thor 定位为 2025 年 8 月 25 日 前后亮相的 Jetson 产品线中性能居首的模组方向，在 Blackwell GPU、14 核 Arm Neoverse V3AE CPU 与 128 GB LPDDR5X 等配置下，面向生成式 AI、人形机器人、实时传感器融合等资源密集型边缘场景；其与 Jetson Orin 系列无针脚兼容，更强调 高资源边缘部署 而非简单换代。

机器人产业正从「专用、固定功能」走向 通用型机器人：类似人类认知，将快速反应与高层推理、规划结合，以更灵活地适应多样任务与环境。NVIDIA 在 GTC 2025 推出的 Isaac GR00T 等平台为这一转型提供基础模型、合成数据、仿真与运行时等能力；Jetson Thor 则定位为将上述能力落到实体系统上的 超强算力载体——使机器人不必为每项新任务完全重编程序，而能加速基础模型在操作、导航、复杂指令跟随等场景中的落地。

2. 为何需要「通用人形」四层架构

构建典型人形机器人，业界常将能力划分为四层（可对应软硬件分工）：

层次	作用
硬件抽象	整合关键感知与执行通道，使机器人能感知环境并物理交互。
实时控制框架	低延迟、高精度运动控制；延迟与安全响应密切相关。
感知与规划	环境理解、抓取与运动规划、定位与物体识别等；相对控制层可容忍略长计算时间以换取决策质量。
高层推理	场景理解、复杂任务规划、自然语言交互等；可接受更长推理时延以支持深度推理与适应性。

Jetson Thor 的设计目标是在 功耗受限的边缘形态 下，为后两层尤其是 生成式推理 + 多模态传感 提供接近数据中心级的算力密度，并与 NVIDIA 机器人与传感器软件栈协同。

3. 硬件概览

3.1 计算与内存

GPU：NVIDIA Blackwell 架构；典型公开规格包括 2560 个 CUDA 核心、第五代 Tensor Core、支持 MIG（多实例 GPU） （如 T5000 为 10 个 TPC 的 MIG 配置）。MIG 可用于工作负载隔离。算力量级常见表述为 FP4（稀疏）约 2070 TFLOPS、FP8（稠密）约 1035 TFLOPS、FP32 约 8 TFLOPS 等级别（以 NVIDIA 正式数据手册为准）。
CPU：14 核 Arm Neoverse-V3AE（64 位） ，最高约 2.6 GHz；缓存层次常见描述为 每核 64 KB L1（指令+数据）、1 MB L2、共享 16 MB L3，以支撑并行负载。
内存：128 GB、256-bit LPDDR5X，带宽约 273 GB/s。在 CUDA 13.0 路线下强调 完整 UVM 一致性，GPU 可通过主机页表访问 可分页主机内存（如 mmap/malloc 缓冲区），减少显式 cudaMemcpy，并改善统一内存相关开发体验。

3.2 视觉、多媒体与 I/O

可编程视觉加速器：第三代 PVA（PVA v3.0） ；另有光流等加速单元。
编解码：双 NVDEC/NVENC；典型能力量级包括多路 8K/4K 解码与多路 4K 编码等（具体路数与格式以官方规格表为准，如多路 4Kp60 编码、8Kp30 解码等）。
相机与显示：可通过 HSB、16 路 MIPI CSI-2 及虚拟通道等支持多路相机；开发者套件含 QSFP 槽位（4×25GbE）、多千兆 RJ45、多 USB 等，便于高速传感器融合与外设扩展。
PCIe / 存储：PCIe Gen5（如 x8+x4+x2 等组合）；模组支持 NVMe（PCIe） 与 USB 3.2 SSD。
功耗与尺寸：模组功耗常见表述为 约 40 W～130 W 可配置；另有 约 75～120 W 可配置（最高约 130 W） 、约 100×87 mm、699 针 连接器与散热板设计等公开参数。与 Jetson Orin 相比，Thor TDP 更高、封装不兼容，面向算力与 I/O 密度更高的边缘节点。

3.3 安全与功能安全

功能安全岛，面向 ISO 13849 / IEC 61508 等方向；
安全启动、密钥隔离、OP-TEE 等；
NUMA 感知内存分配，便于将原数据中心 GPU（dGPU）类应用迁移到 Thor 的单节点语义下。

3.4 模组规格对比（Jetson T5000 / Jetson T4000*）

*T4000 相关数据在公开材料中标注为初步（preliminary）信息，如有变更以 NVIDIA 官方为准。

规格项	Jetson T5000	Jetson T4000*
AI 性能（Sparse FP4）	2070 TFLOPS	1200 TFLOPS
AI 性能（Dense FP4 / Sparse FP8 / Sparse INT8）	1035 TFLOPS	600 TFLOPS
AI 性能（Dense FP8 / Sparse FP16）	517 TFLOPS	300 TFLOPS
GPU	2560 核 NVIDIA Blackwell，96 个第五代 Tensor Core，MIG，10 个 TPC	1536 核 Blackwell，64 个第五代 Tensor Core，MIG，6 个 TPC
CPU	14 核 Arm Neoverse-V3AE 64 位	12 核 Arm Neoverse-V3AE 64 位
内存	128 GB，256-bit LPDDR5X，273 GB/s	64 GB，256-bit LPDDR5X，273 GB/s
频率	GPU 最高 1.57 GHz；CPU 最高 2.6 GHz	同左
存储	支持 PCIe NVMe；支持 USB 3.2 SSD	同左
视觉加速器	PVA v3.0	PVA v3.0
视频编码	最高约 6×4Kp60（H.265/H.264）	最高约 6×4Kp60（H.265/H.264）*
视频解码	最高约 4×8Kp30（H.265）；最高约 4×4Kp60（H.264）	带 * 的初值
相机	经 HSB 最高约 20 路；经 16 路 MIPI CSI-2 最高约 6 路；虚拟通道 C-PHY 2.1 / D-PHY 2.1 等	同左
显示	4× 共享 HDMI 2.1；VESA DisplayPort 1.4a（HBR2，MST）	同左
功耗	约 40 W～130 W	约 40 W～70 W

3.5 Thor 关键硬件参数一览（增强规格摘要）

下列条目与上文互补，侧重缓存层次、多媒体频率、I/O 与安全等公开细化描述。

类别	内容摘要
GPU	Blackwell；2560 个 CUDA 核心；96 个第五代 Tensor Core；支持 MIG；公开算力示例含约 2070 TFLOPS FP4（sparse）、1035 TFLOPS FP8（dense）、约 8 TFLOPS FP32 等量级
CPU	14 核 Arm Neoverse V3AE，最高约 2.6 GHz；常见描述为每核 64 KB L1（指令+数据）、每核 1 MB L2、共享 16 MB L3
内存	128 GB LPDDR5X（如 4266 MHz、256-bit、约 273 GB/s）；配合 CUDA 13 路线中的 UVM 一致性等能力
多媒体	双 NVDEC/NVENC（如约 1.56 GHz）；多路 8K/4K 解码与多路 4K 编码等典型能力；PVA 3.0；双 HiFi 5 DSP 等
I/O 与接口	如 16×CSI-2；4×25 GbE；PCIe Gen5（x8+x4+x2 等）；多路 USB 3.2；CAN、UART、I2C、SPI、PWM、GPIO；DMABUF 零拷贝等
安全 / 功能安全	功能安全岛（如 ISO 13849 / IEC 61508 方向）；安全启动、密钥隔离、OP-TEE 等
功耗与结构	常见描述为约 75～120 W 可配置（最高约 130 W）；约 100×87 mm；约 699 针连接器与散热板等

3.6 Jetson AGX Thor 开发者套件载板规格

项目	规格
集成模组	NVIDIA Jetson T5000
存储	M.2 Key M 槽位集成 1 TB NVMe
相机	经 QSFP 的 HSB 相机；USB 相机
PCIe	M.2 Key M：x4 PCIe Gen5（预装 1 TB NVMe）；M.2 Key E：x1 PCIe Gen5（预装 Wi-Fi 6E + 蓝牙）
USB	2×USB Type-A 3.2 Gen2；2×USB Type-C 3.1 Gen1；1×USB Type-C（仅 Debug）
网络	1×约 5GbE RJ45；1×QSFP28（4×25GbE）
Wi-Fi	802.11ax Wi-Fi 6E
显示	1×HDMI 2.0b；1×DisplayPort 1.4a
其他 I/O	2×13-pin CAN；2×6-pin Automation；2×5-pin；JTAG；4-pin 风扇（12V、PWM、Tach）；2×5-pin 音频面板；RTC 备份电池接口；电源与强制恢复、复位键等
机械尺寸	约 243.19×112.40×56.88 mm（高度含脚垫、载板、模组与散热方案）

4. Blackwell 与 AI 推理：Transformer Engine、FP4 与 MIG

Transformer Engine + 原生 FP4：在 Blackwell 上支持 FP4 量化，并可 在 FP4 与 FP8 间动态切换，结合更高内存带宽，加速生成式工作负载中的 prefill 与 decode。
MIG：单 GPU 划分为 相互隔离的实例，为关键任务 预留算力，其余实例并行运行非关键任务，适合 混合关键型机器人。相关软件方向还包括 MPS（多进程服务） 、Green Context 等与 确定性、低延迟 相关的机制，以及 NVML 等监控能力的持续扩展。

相对 Jetson AGX Orin，公开材料中常见 AI 算力最高约 7.5×、能效约 3.5× 等定性对比（需在具体功耗模式与基准下理解）；亦可见 约 3～4× 等不同量级的表述，差异往往来自 指标定义（TOPS/TFLOPS/场景） 与测试条件，应以 NVIDIA 官方规格与白皮书为准。

5. 软件栈：JetPack 7、CUDA 13.0 与 SBSA

5.1 JetPack 7 与系统基线

JetPack 7：Linux 6.8、Ubuntu 24.04 LTS、最新 NVIDIA AI 软件栈；
面向实时、高吞吐物理 AI：Holoscan Sensor Bridge、MIG、PREEMPT_RT（可抢占实时内核） 等，强化高速传感器融合与运动规划等任务；
支持 Cosmos Reason 等面向机器人与 Physical AI 的开放可定制推理 VLM（如 7B 规模）。

5.2 SBSA 与统一 CUDA

SBSA（Server Base System Architecture） ：Jetson 软件与 Arm 服务器级设计对齐，有利于 OS 支持、可移植性与企业集成。
CUDA 13.0：强调在 多种 Arm 目标 上 统一的 CUDA 13.0 安装，减少工具链碎片化；并包括 面向 SBSA 合规服务器与嵌入式（如 Thor）的统一工具链、在 GB200/DGX 等平台 构建一次 并在 Thor 上部署（Blackwell 上运行时优化）、容器与 CI 流程统一 等叙述。技术要点还涵盖 真实统一虚拟内存（UVM）与全一致性、DMABUF 与第三方驱动 零拷贝、MPS、Green Context、nvidia-smi/NVML 监控与后续 JetPack 扩展等。

开发者套件常见预装或首发组合包括 Isaac ROS 4.0、CUDA 13.0、TensorRT、RTX AI 与 PREEMPT_RT 内核 等。

6. 边缘侧生成式 AI 与基准

6.1 模型类型

Jetson Thor 面向 VLA（视觉-语言-动作） 、LLM、VLM 等生成式模型；典型示例包括 Isaac GR00T N1.5 及常见开源大模型与视觉语言模型。

6.2 生成式推理与多模态负载

相较 Jetson Orin，Thor 在生成式推理上公开宣称可达约 5× 量级的提升；结合 FP4 与 投机解码（speculative decoding） 等，还可再获得约 2× 量级的额外加速（依模型与配置而定）。
多模型、多请求场景下，Qwen2.5-VL-3B 与 Llama 3.2 3B 等同时处理多路请求时，首 Token 延迟（TTFT） 与 每输出 Token 时间（TPOT） 可优于实时交互常见阈值（如 TTFT 远低于 200 ms、TPOT 远低于 50 ms 等量级叙述）。

Jetson AGX Thor 与 Jetson AGX Orin 吞吐对比（输出 tokens/s）

类型	模型	Jetson AGX Thor	Jetson AGX Orin	加速比
LLM	Llama 3.1 8B	150.8	112.33	1.34
LLM	Llama 3.3 70B	12.64	7.38	1.71
LLM	Qwen3-30B-A3B	226.42	76.69	2.95
LLM	Qwen3-32B	79.1	16.84	4.70
LLM	DeepSeek-R1-Distill-Qwen-7B	304.76	180.41	1.69
LLM	DeepSeek-R1-Distill-Qwen-32B	82.63	16.96	4.87
VLM	Qwen2.5-VL-3B	356.86	216	1.65
VLM	Qwen2.5-VL-7B	252	154.02	1.64
VLM	Llama 3.2 11B Vision	69.63	44.22	1.57
VLA	GR00T N1	46.7	18.5	2.52
VLA	GR00T N1.5	41.5	15.2	2.74

测试条件（公开材料摘要）：输入序列长度 2048，输出序列长度 128，最大并发 8；LLM 与 VLM 使用 VLLM，VLA 使用 TensorRT；Jetson AGX Thor 与 AGX Orin 均为 MAXN 功耗模式。实际结果随软件版本与调参变化，以 NVIDIA 最新发布为准。

6.3 与 NVIDIA 应用栈的衔接

NVIDIA Isaac：CUDA 加速库、框架与模型，覆盖 AMR、机械臂、人形等；Thor 面向 GR00T N1.5 等重负载模型做实时人机交互与感知。
NVIDIA Metropolis / VSS（Video Search and Summarization） ：从边缘相机构建 视觉智能体，用于质检、安防、体育与应急等场景的实时告警、摘要与问答。
NVIDIA Holoscan：AI 传感器处理与 软件定义实时 AI；在 Thor 上可 安全分区 并发工作流，保证 确定性、容错与防数据泄漏。Holoscan Sensor Bridge、Camera over Ethernet 等可将多类传感器经以太网接入，数据 直达 GPU 内存，降低延迟与 CPU 负担；生态侧常见配套还包括 MIPI CSI、GStreamer、TensorRT FP8/INT8 等集成与调优服务。

7. 典型应用场景

机器人 / 自主系统：实时 SLAM、多智能体、人形与 AMR 的传感器融合（25GbE 等）、混合关键任务隔离（MIG/MPS/Green Context 等机制）。
车载与工业：车载感知、缺陷检测、预测性维护；UVM 一致内存与 DMABUF 共享缓冲降低拷贝开销。
医疗与边缘 AI：手术影像、诊断辅助、8K 多路解码；内存内 LLM 用于隐私敏感分析。
智慧城市与智能终端：自助机、无人机、城市级推理；SBSA/NUMA 可移植性。

生态方面，Jetson 公开资料提及 1000+ 合作伙伴（ISV、云厂商、平台软件、OEM/ODM、传感器、分销商等）。具体集成方案与合作条款需与对应厂商确认。

8. 总结

NVIDIA Jetson Thor 将 Blackwell GPU、大容量 LPDDR5X、Neoverse V3AE 多核 CPU 与高带宽 I/O（含 4×25GbE、PCIe Gen5、多路相机） 集成于边缘 SoM/开发者套件形态，配合 JetPack 7、CUDA 13.0、SBSA 对齐 与 MIG/FP4/Transformer Engine 等，面向 Physical AI、通用人形机器人 与 端侧生成式多模态 AI。选型与部署请以 NVIDIA Jetson AGX Thor 开发者套件数据手册 与 JetPack 发布说明 等官方资料为准。