让边缘 IoT 设备秒变 AI 超级终端！还在为边缘物联网设备 AI 部署头疼？ IoT AI 落地计划卡在传统方案上？

还在为边缘物联网设备 AI 部署头疼？
IoT AI 落地计划卡在传统方案上？
驱动碎片化、配置耗几天、大模型跑不动、离线就罢工......

端侧 AI 爆发年，Nexa AI 联手高通、Docker 共同推出适用于高通物联网设备的 Docker 版 NexaSDK！

1 行命令就能打通 NPU+GPU+CPU 协同；
让 Qualcomm 设备离线跑 LLM/VLM/YOLOv13 等顶尖模型，延迟砍半、功耗省 9 倍！
终结 Linux 发行版兼容噩梦，让物联网 AI 部署从 “几天配置” 缩到 “分钟级上手”！

一个SDK搞定高通物联网设备的 “本地 AI 超能力”，告别云端依赖和配置内耗！

微信截图_20260120125859.png

Video RAG on Qualcomm IQ9 by Nexa SDK

如果您喜欢，欢迎查阅和 Star 支持我们的开源项目，每一份认可都是我们前行的动力！

代码仓库： github.com/NexaAI/nexa…

一、技术背景简述

物联网设备在寻求 “AI化”的当下，场景落地仍存在诸多限制：

依赖网络连接才能响应，离线状态下就难以正常工作；
敏感数据需要上传云端，存在泄露风险；
运行 AI 模型时容易出现发热、卡顿问题，续航表现也不尽如人意。

这背后的关键原因，在于缺少专门为 AI 优化的硬件核心 ——NPU（神经网络处理器） 。作为 AI 专属的 “算力引擎”，NPU 相比传统的 CPU、GPU，在运行 AI 任务时效率更高、功耗更低，能真正实现设备 “本地智能” 的高效落地。

Nexa SDK 让这一核心能力变得更易获取。

针对高通物联网设备（包括工业设备、机器人、安防终端等），只需通过简单的容器操作，就能直接运行各类顶尖 AI 模型 —— 涵盖 LLM、VLM、 ASR，Embedding模型、rerank模型、CV模型等。

整个过程无需手动整合驱动、整合复杂依赖，只需拉取一个容器，即可在本地运行现代多模态模型，还能实现 NPU、CPU、GPU 的协同发力。

针对 Linux 系统，NexaSDK 重点支持两款高通旗舰物联网平台：Dragonwing™ IQ9 系列和 Dragonwing™ RB3 Gen 2。

Dragonwing RB3 Gen 2 开发套件面向机器人、视觉 AI 和智能安防应用场景，为边缘开发者提供高可用性和灵活性的平台。RB3 Gen 2 集成多核 ARM CPU、用于图形处理和辅助计算的 Adreno GPU，以及 Qualcomm Hexagon NPU，其稠密计算性能最高可达 12 TOPS。

Qualcomm Dragonwing™ IQ9 系列专为高性能工业和边缘 AI 工作负载设计。该平台搭载八核 Kryo Gen 6 CPU（最高主频 2.36 GHz）、Adreno 663 GPU（最高运行频率 800 MHz），以及 Qualcomm Hexagon NPU，其稠密计算性能可达 50 至 100 TOPS。

以往需要专业团队花费数天完成的 AI 部署工作，现在通过一条命令就能快速实现。 设备不仅能离线稳定运行，保障数据安全，还能拥有更快的响应速度，边缘设备的智能应用落地也因此变得更简单、更高效。

二、适用于高通物联网设备的Docker版 NexaSDK优势

在 Linux 系统的物联网设备上部署 AI 模型，一直存在不少麻烦：

不同设备的操作系统版本、内核类型五花八门，厂商驱动也各有差异，再加上 AI 运行时的复杂依赖，往往导致部署过程繁琐又容易出错，大规模推广时还会出现性能不稳定的问题。

而 Docker 版 NexaSDK 恰好解决了这些痛点。它为搭载高通 Hexagon NPU 的 Linux 设备，打包了一套现成的 AI 运行环境，就像一个 “即插即用” 的工具箱 —— 无需关心底层的系统差异和驱动适配，通过统一的接口就能直接调用设备的 NPU、CPU 和 GPU 算力。

如上图架构所示，NexaSDK Docker 镜像提供了一个容器化的 AI 运行时环境，专为搭载 Qualcomm Hexagon NPU 的 Linux ARM64 系统优化，通过统一的推理接口直接调用 Hexagon NPU、CPU 和 GPU 资源。

Docker 虚拟化技术避开了 Linux 系统配置的繁琐，还能保证每次运行的性能都稳定一致：不管你的设备用的是哪种 Linux 发行版，它都能提供统一的运行环境，完全不用操心应用和主机系统的依赖冲突。而且 NPU 相关的复杂配置全不用手动配置，大大节省了开发的时间。

具体来说，体现在以下几点优势：

跨设备、跨 Linux 发行版通用，不管换哪种设备或系统，运行效果都一致，不用重复适配；
彻底隔绝主机系统的依赖干扰，不用手动折腾 NPU 配置，一条 docker run 命令就能快速启动，上手超简单；
模型支持全，大语言模型（LLM）、视觉语言模型（VLM）、嵌入模型、重排模型、计算机视觉模型（CV）、语音识别模型（ASR）都能跑；更新也方便，直接从 Docker Hub 拉取新镜像，就能轻松完成 SDK 升级，无需复杂操作。

三、运行顶尖模型

两种使用模式，无论快速测试模型，还是长期部署服务，都能满足。

使用模式

交互式命令行模式，直接在终端（CLI）里就能调用模型；
服务器模式，能把模型部署成持久化的 REST 服务，方便后续调用。

以 IBM Granite-4.0-h-350M 模型为例，不管是想快速体验模型效果，还是要搭建稳定的服务，跟着简单步骤操作就能实现，就算不是资深技术人员也能轻松上手。

1、交互式CLI模式

export NEXA_TOKEN="YOUR_LONG_TOKEN_HERE"
docker run --rm -it --privileged \  
-v /path/to/data:/data \  
-v /etc/machine-id:/etc/machine-id:ro \  
-e NEXA_TOKEN \  
nexa4ai/nexasdk:latest infer NexaAI/Granite-4.0-h-350M-NPU

2、服务器（REST API）模式

export NEXA_TOKEN="YOUR_LONG_TOKEN_HERE"
docker run --rm -d -p 18181:18181 --privileged \  
-v /path/to/data:/data \  
-v /etc/machine-id:/etc/machine-id:ro \  
-e NEXA_TOKEN \  
nexa4ai/nexasdk:latest serve

下面图片展示了 CLI 和服务器模式在 LLM、VLM、ASR 和嵌入模型上的运行效果：

微信截图_20260120130233.png

四、快速上手

对于 Linux 开发者来说，NexaSDK的入门流程上手特别简单。

我们准备了详细的快速入门指南，跟着步骤可以快速搭建测试版本，链接点击直达：docs.nexa.ai/nexa-sdk-do…

所有版本的 NexaSDK Docker 镜像都已经同步到了 Docker Hub 上，不管是想选最新版，还是需要特定版本，可以在这里找到答案：hub.docker.com/r/nexa4ai/n…

截至 2026 年 1 月 10 日，NexaSDK 已经在高通物联网设备上支持了很多模型，这些模型都托管在 Huggingface 平台（huggingface.co/NexaAI），具体支持的模型清单如下：

a) 适用于 IQ9 平台的支持模型：

视觉语言模型（VLM）

AutoNeural：NexaAI/AutoNeural

大语言模型（LLM）

FM2.5-1.2B：NexaAI/LFM2-1.2B-npu
FM2-1.2B：NexaAI/LFM2-1.2B-npu
Granite-4.0-h-350M：NexaAI/Granite-4.0-h-350M-NPU

嵌入模型（Embedding）

EmbeddingGemma-300M：NexaAI/embeddinggemma-300m-npu
EmbedNeural：NexaAI/EmbedNeural

重排模型（rerank）

Jina-v2 Reranker：NexaAI/jina-v2-rerank-npu

语音识别模型（ASR）

Parakeet-TDT-0.6B-v3：NexaAI/parakeet-tdt-0.6b-v3-npu

计算机视觉模型（CV）

YOLOv12：NexaAI/yolov12-npu
RF-DETR 分割模型（预览版）：NexaAI/rf-detr-seg-preview-npu
ConvNeXt-Tiny：NexaAI/convnext-tiny-npu-IoT

b) 适用于 RB3 平台的支持模型

计算机视觉模型（CV）

ConvNeXt-Tiny：NexaAI/convnext-tiny-npu-IoT-rb3

以上就是本次更新的全部内容，如果您有兴趣，欢迎Star我们的项目（ github.com/NexaAI/nexa… ），关注我们的NEXA AI公众号，或者扫码加入我们国内的社群👇