用NVIDIA加速端点开发Qwen3.5原生多模态智能体

5 阅读3分钟

某机构发布了全新的开源Qwen3.5系列,专为原生多模态智能体而构建。该系列的首个模型是一个约4000亿参数的原生视觉语言模型(VLM),采用混合专家(MoE)和门控增量网络的混合架构,具备推理能力。Qwen3.5能够理解并导航用户界面,相较于上一代VLM有所改进。

Qwen3.5非常适合多种应用场景,包括:

  • 编码,含网页开发
  • 视觉推理,含移动端和网页界面
  • 聊天应用
  • 复杂搜索

表1. Qwen3.5模型的规格与配置详情

项目数值
模态视觉、语言
总参数3970亿
激活参数170亿
激活率4.28%
输入上下文长度256K,可扩展至100万token
支持语言200+
专家数量512
共享专家1
每个token的专家数11(10个路由 + 1个共享)
层数60
词表大小248,320

使用某机构端点进行构建

即刻可以通过对某机构开发者计划成员免费开放的、由某机构Blackwell GPU加速的端点(位于 build.某机构.com)开始使用Qwen3.5。作为某机构开发者计划的一部分,可以在浏览器中快速探索、试验提示词,甚至使用自己的数据测试模型以评估真实性能。

视频1. 学习如何在某机构GPU加速端点上测试Qwen3.5

也可以通过API使用某机构托管的模型,注册某机构开发者计划即可免费使用。

import requests

invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
headers = {
    "Authorization": "Bearer $NVIDIA_API_KEY",
    "Accept": "application/json",
}
payload = {
    "messages": [
        {
            "role": "user",
            "content": ""
        }
    ],
    "model": "qwen/qwen3.5-397b-a17b",
    "chat_template_kwargs": {
        "thinking": True
    },
    "frequency_penalty": 0,
    "max_tokens": 16384,
    "presence_penalty": 0,
    "stream": True,
    "temperature": 1,
    "top_p": 1
}

# 重用连接
session = requests.Session()
response = session.post(invoke_url, headers=headers, json=payload)
response.raise_for_status()
response_body = response.json()
print(response_body)

要利用工具调用功能,只需定义一个与OpenAI兼容的工具数组,并将其添加到聊天补全的tools参数中。

某机构NIM使得将Qwen3.5从开发阶段投入生产变得容易。作为优化的、容器化的推理微服务,NIM将模型与性能调优、标准化API以及企业所需的部署灵活性打包在一起。可以在任何地方下载并运行它:本地、云端或混合环境。

使用某机构NeMo进行定制化

虽然Qwen3.5提供了令人印象深刻的“开箱即用”多模态能力,但某机构NeMo框架提供了必要的工具,使其能够适应专门的领域需求。使用NeMo Automodel库,开发者可以对Qwen3.5 3970亿参数架构进行高吞吐量效率的微调。

NeMo Automodel是一个PyTorch原生训练库,提供即时的Hugging Face支持,能够直接在现有检查点上进行训练,无需繁琐的模型转换。这有助于快速实验,无论是执行全量监督微调(SFT),还是使用LoRA等内存高效方法。

作为参考实现指南,开发者可以利用关于医疗视觉问答(Medical Visual QA)的技术教程,该教程详细介绍了如何在放射学数据集上微调Qwen3.5。为了应对大规模需求,NeMo支持多节点的Slurm和Kubernetes部署,确保即使是最大的MoE模型也能针对领域特定推理和复杂的智能体工作流进行优化,并保持极低延迟。

开始使用Qwen3.5

从某机构Blackwell上的数据中心部署,到用于任意环境容器化部署的某机构NIM微服务,某机构为集成Qwen3.5提供了全面的解决方案。要开始使用,请查阅Hugging Face上的Qwen3.5模型页面,并在 build.某机构.com 上测试Qwen3.5。FINISHED