用NVIDIA加速端点开发Qwen3.5原生多模态智能体本文介绍了阿里发布的Qwen3.5原生视觉语言模型，其采用混合专

某机构发布了全新的开源Qwen3.5系列，专为原生多模态智能体而构建。该系列的首个模型是一个约4000亿参数的原生视觉语言模型（VLM），采用混合专家（MoE）和门控增量网络的混合架构，具备推理能力。Qwen3.5能够理解并导航用户界面，相较于上一代VLM有所改进。

Qwen3.5非常适合多种应用场景，包括：

编码，含网页开发
视觉推理，含移动端和网页界面
聊天应用
复杂搜索

表1. Qwen3.5模型的规格与配置详情

项目	数值
模态	视觉、语言
总参数	3970亿
激活参数	170亿
激活率	4.28%
输入上下文长度	256K，可扩展至100万token
支持语言	200+
专家数量	512
共享专家	1
每个token的专家数	11（10个路由 + 1个共享）
层数	60
词表大小	248,320

使用某机构端点进行构建

即刻可以通过对某机构开发者计划成员免费开放的、由某机构Blackwell GPU加速的端点（位于 build.某机构.com）开始使用Qwen3.5。作为某机构开发者计划的一部分，可以在浏览器中快速探索、试验提示词，甚至使用自己的数据测试模型以评估真实性能。

视频1. 学习如何在某机构GPU加速端点上测试Qwen3.5

也可以通过API使用某机构托管的模型，注册某机构开发者计划即可免费使用。

import requests

invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
headers = {
    "Authorization": "Bearer $NVIDIA_API_KEY",
    "Accept": "application/json",
}
payload = {
    "messages": [
        {
            "role": "user",
            "content": ""
        }
    ],
    "model": "qwen/qwen3.5-397b-a17b",
    "chat_template_kwargs": {
        "thinking": True
    },
    "frequency_penalty": 0,
    "max_tokens": 16384,
    "presence_penalty": 0,
    "stream": True,
    "temperature": 1,
    "top_p": 1
}

# 重用连接
session = requests.Session()
response = session.post(invoke_url, headers=headers, json=payload)
response.raise_for_status()
response_body = response.json()
print(response_body)

要利用工具调用功能，只需定义一个与OpenAI兼容的工具数组，并将其添加到聊天补全的tools参数中。

某机构NIM使得将Qwen3.5从开发阶段投入生产变得容易。作为优化的、容器化的推理微服务，NIM将模型与性能调优、标准化API以及企业所需的部署灵活性打包在一起。可以在任何地方下载并运行它：本地、云端或混合环境。

使用某机构NeMo进行定制化

虽然Qwen3.5提供了令人印象深刻的“开箱即用”多模态能力，但某机构NeMo框架提供了必要的工具，使其能够适应专门的领域需求。使用NeMo Automodel库，开发者可以对Qwen3.5 3970亿参数架构进行高吞吐量效率的微调。

NeMo Automodel是一个PyTorch原生训练库，提供即时的Hugging Face支持，能够直接在现有检查点上进行训练，无需繁琐的模型转换。这有助于快速实验，无论是执行全量监督微调（SFT），还是使用LoRA等内存高效方法。

作为参考实现指南，开发者可以利用关于医疗视觉问答（Medical Visual QA）的技术教程，该教程详细介绍了如何在放射学数据集上微调Qwen3.5。为了应对大规模需求，NeMo支持多节点的Slurm和Kubernetes部署，确保即使是最大的MoE模型也能针对领域特定推理和复杂的智能体工作流进行优化，并保持极低延迟。

开始使用Qwen3.5

从某机构Blackwell上的数据中心部署，到用于任意环境容器化部署的某机构NIM微服务，某机构为集成Qwen3.5提供了全面的解决方案。要开始使用，请查阅Hugging Face上的Qwen3.5模型页面，并在 build.某机构.com 上测试Qwen3.5。FINISHED