Qwen3.5 不想自己部署？3 种 API 调用方案实测，最快 5 分钟跑通热榜上 Qwen3.5 私有化部署很火，但

Qwen3.5 不想自己部署？3 种 API 调用方案实测，最快 5 分钟跑通

热榜上那篇「Qwen3.5 私有化部署全攻略」我也看了，写得很详细。但说实话，不是每个人都有显卡、都想折腾 Docker 的。我手上几个项目就是纯调 API，根本不需要自己部署。

这篇就聊聊不部署的玩法——直接调 API，从注册到跑通代码，实测 3 种方案的延迟和体验。

先说结论

方案	首字延迟	上下文长度	适合谁
阿里云百炼（官方）	200-400ms	1M tokens	预算充足、要求稳定
OpenAI 兼容聚合平台	150-300ms	取决于平台	想一个 Key 调多家模型
Ollama 本地	50-150ms	受限于显存	有 GPU、要求离线

为什么我选择调 API

Qwen3.5 用了 MoE（混合专家）架构，虽然激活参数只有 3B/10B，但完整模型参数量是 35B 和 122B。自己部署意味着：

至少需要 24GB 显存跑 35B-A3B（量化后）
122B-A10B？没有 A100 集群就别想了
还得搞 vLLM 或 SGLang 来做推理优化

而用 API，改个 base_url 就完事了。

方案一：阿里云百炼（官方直连）

最正统的方式。注册阿里云账号，开通百炼服务，拿到 API Key 就能用。

from openai import OpenAI

client = OpenAI(
    api_key="sk-你的百炼APIKey",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)

response = client.chat.completions.create(
    model="qwen3.5-72b-instruct",
    messages=[
        {"role": "system", "content": "你是一个资深 Python 开发者"},
        {"role": "user", "content": "帮我写一个异步爬虫框架的核心类"}
    ],
    temperature=0.7,
    max_tokens=2048
)

print(response.choices[0].message.content)

百炼的好处是模型版本更新最快，毕竟是亲儿子。Qwen3.5-Flash 支持 100 万 token 上下文，做长文档分析、代码仓库理解这种场景很合适。

踩坑点：百炼的模型 ID 命名有点混乱。qwen3.5-72b-instruct 和 qwen-plus 其实可能指向同一个模型，但计费不一样。建议直接用具体的模型 ID，别用别名。

方案二：OpenAI 兼容的聚合平台

如果你同时要用 GPT、Claude、Gemini、Qwen 多个模型，每家都注册一遍太折腾了。聚合平台的好处是一个 API Key 通吃。

我目前在用 ofox.ai，它兼容 OpenAI 协议，换个 base_url 就行：

from openai import OpenAI

client = OpenAI(
    api_key="sk-你的Key",
    base_url="https://api.ofox.ai/v1"
)

# 调 Qwen3.5
response = client.chat.completions.create(
    model="qwen/qwen3.5-72b-instruct",
    messages=[
        {"role": "user", "content": "用 FastAPI 写一个带限流的 API 网关"}
    ],
    stream=True
)

for chunk in response:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

同样的代码，把 model 换成 anthropic/claude-sonnet-4-6 就能调 Claude，换成 google/gemini-2.5-pro 就是 Gemini。不用改任何其他代码。

实测体验：国内直连延迟在 150-300ms 之间，比我之前直连百炼还快一点（可能走了国内加速节点）。流式输出很流畅，没遇到断流的情况。

方案三：Ollama 本地部署（轻量版）

严格来说这也算"部署"，但 Ollama 把复杂度降到了最低：

# 安装 Ollama（macOS）
brew install ollama

# 拉取 Qwen3.5 的小模型
ollama pull qwen3.5:3b

# 启动服务
ollama serve

然后代码还是一样的 OpenAI SDK：

from openai import OpenAI

client = OpenAI(
    api_key="ollama",  # 随便填
    base_url="http://localhost:11434/v1"
)

response = client.chat.completions.create(
    model="qwen3.5:3b",
    messages=[
        {"role": "user", "content": "解释一下 Python 的 GIL"}
    ]
)

print(response.choices[0].message.content)

Ollama 的优势是完全离线、零成本。但 3B 参数的小模型在复杂编程任务上表现一般，适合做简单的文本处理和问答。想要好效果，还是得用云端的大模型。

Qwen3.5 的 thinking 模式

Qwen3.5 有个挺有意思的特性——内置思维链（thinking mode）。开启后模型会先在 <think> 标签里推理，再给出最终答案：

response = client.chat.completions.create(
    model="qwen/qwen3.5-72b-instruct",
    messages=[
        {"role": "user", "content": "一个水池，甲管注满需6小时，乙管排空需8小时，同时开两管多久注满？"}
    ],
    extra_body={"enable_thinking": True}
)

# 响应中会包含 <think>推理过程</think> 和最终答案
print(response.choices[0].message.content)

这个在做数学题、逻辑推理的时候效果提升很明显。但日常对话建议关掉，不然输出一大堆思考过程，token 消耗也会翻倍。

踩坑：不是所有平台都支持 enable_thinking 参数。百炼原生支持，聚合平台要看具体实现。如果不支持，可以换个思路——在 system prompt 里加一句"请先分析再回答"，效果类似。

三种方案怎么选

需要离线？ → Ollama
  ↓ 否
只用 Qwen？ → 百炼
  ↓ 否
多模型切换？ → 聚合平台

我个人的做法是百炼 + 聚合平台组合用。对 Qwen 模型要求高稳定性的场景走百炼，需要同时调 GPT/Claude/Gemini 做对比测试的场景走聚合平台。

小结

Qwen3.5 的 MoE 架构确实是个好东西——激活参数少意味着推理快、成本低，但完整参数量大意味着能力不打折。对于大多数开发者来说，调 API 是性价比最高的方式。

私有化部署适合有数据安全要求的企业，个人开发者和小团队，真没必要折腾显卡。把精力花在应用层，比折腾基础设施有意义得多。

热榜那篇部署教程确实写得好，但如果你跟我一样是"API 派"，希望这篇能帮到你。有问题评论区见。