某机构发布了全新的开源Qwen3.5系列,专为原生多模态智能体而构建。该系列的首个模型是一个约4000亿参数的原生视觉语言模型(VLM),采用混合专家(MoE)和门控增量网络的混合架构,具备推理能力。Qwen3.5能够理解并导航用户界面,相较于上一代VLM有所改进。
Qwen3.5非常适合多种应用场景,包括:
- 编码,含网页开发
- 视觉推理,含移动端和网页界面
- 聊天应用
- 复杂搜索
表1. Qwen3.5模型的规格与配置详情
| 项目 | 数值 |
|---|---|
| 模态 | 视觉、语言 |
| 总参数 | 3970亿 |
| 激活参数 | 170亿 |
| 激活率 | 4.28% |
| 输入上下文长度 | 256K,可扩展至100万token |
| 支持语言 | 200+ |
| 专家数量 | 512 |
| 共享专家 | 1 |
| 每个token的专家数 | 11(10个路由 + 1个共享) |
| 层数 | 60 |
| 词表大小 | 248,320 |
使用某机构端点进行构建
即刻可以通过对某机构开发者计划成员免费开放的、由某机构Blackwell GPU加速的端点(位于 build.某机构.com)开始使用Qwen3.5。作为某机构开发者计划的一部分,可以在浏览器中快速探索、试验提示词,甚至使用自己的数据测试模型以评估真实性能。
视频1. 学习如何在某机构GPU加速端点上测试Qwen3.5
也可以通过API使用某机构托管的模型,注册某机构开发者计划即可免费使用。
import requests
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
headers = {
"Authorization": "Bearer $NVIDIA_API_KEY",
"Accept": "application/json",
}
payload = {
"messages": [
{
"role": "user",
"content": ""
}
],
"model": "qwen/qwen3.5-397b-a17b",
"chat_template_kwargs": {
"thinking": True
},
"frequency_penalty": 0,
"max_tokens": 16384,
"presence_penalty": 0,
"stream": True,
"temperature": 1,
"top_p": 1
}
# 重用连接
session = requests.Session()
response = session.post(invoke_url, headers=headers, json=payload)
response.raise_for_status()
response_body = response.json()
print(response_body)
要利用工具调用功能,只需定义一个与OpenAI兼容的工具数组,并将其添加到聊天补全的tools参数中。
某机构NIM使得将Qwen3.5从开发阶段投入生产变得容易。作为优化的、容器化的推理微服务,NIM将模型与性能调优、标准化API以及企业所需的部署灵活性打包在一起。可以在任何地方下载并运行它:本地、云端或混合环境。
使用某机构NeMo进行定制化
虽然Qwen3.5提供了令人印象深刻的“开箱即用”多模态能力,但某机构NeMo框架提供了必要的工具,使其能够适应专门的领域需求。使用NeMo Automodel库,开发者可以对Qwen3.5 3970亿参数架构进行高吞吐量效率的微调。
NeMo Automodel是一个PyTorch原生训练库,提供即时的Hugging Face支持,能够直接在现有检查点上进行训练,无需繁琐的模型转换。这有助于快速实验,无论是执行全量监督微调(SFT),还是使用LoRA等内存高效方法。
作为参考实现指南,开发者可以利用关于医疗视觉问答(Medical Visual QA)的技术教程,该教程详细介绍了如何在放射学数据集上微调Qwen3.5。为了应对大规模需求,NeMo支持多节点的Slurm和Kubernetes部署,确保即使是最大的MoE模型也能针对领域特定推理和复杂的智能体工作流进行优化,并保持极低延迟。
开始使用Qwen3.5
从某机构Blackwell上的数据中心部署,到用于任意环境容器化部署的某机构NIM微服务,某机构为集成Qwen3.5提供了全面的解决方案。要开始使用,请查阅Hugging Face上的Qwen3.5模型页面,并在 build.某机构.com 上测试Qwen3.5。FINISHED