Qwen3.5 不想自己部署?3 种 API 调用方案实测,最快 5 分钟跑通

16 阅读1分钟

Qwen3.5 不想自己部署?3 种 API 调用方案实测,最快 5 分钟跑通

热榜上那篇「Qwen3.5 私有化部署全攻略」我也看了,写得很详细。但说实话,不是每个人都有显卡、都想折腾 Docker 的。我手上几个项目就是纯调 API,根本不需要自己部署。

这篇就聊聊不部署的玩法——直接调 API,从注册到跑通代码,实测 3 种方案的延迟和体验。

先说结论

方案首字延迟上下文长度适合谁
阿里云百炼(官方)200-400ms1M tokens预算充足、要求稳定
OpenAI 兼容聚合平台150-300ms取决于平台想一个 Key 调多家模型
Ollama 本地50-150ms受限于显存有 GPU、要求离线

为什么我选择调 API

Qwen3.5 用了 MoE(混合专家)架构,虽然激活参数只有 3B/10B,但完整模型参数量是 35B 和 122B。自己部署意味着:

  • 至少需要 24GB 显存跑 35B-A3B(量化后)
  • 122B-A10B?没有 A100 集群就别想了
  • 还得搞 vLLM 或 SGLang 来做推理优化

而用 API,改个 base_url 就完事了。

方案一:阿里云百炼(官方直连)

最正统的方式。注册阿里云账号,开通百炼服务,拿到 API Key 就能用。

from openai import OpenAI

client = OpenAI(
    api_key="sk-你的百炼APIKey",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)

response = client.chat.completions.create(
    model="qwen3.5-72b-instruct",
    messages=[
        {"role": "system", "content": "你是一个资深 Python 开发者"},
        {"role": "user", "content": "帮我写一个异步爬虫框架的核心类"}
    ],
    temperature=0.7,
    max_tokens=2048
)

print(response.choices[0].message.content)

百炼的好处是模型版本更新最快,毕竟是亲儿子。Qwen3.5-Flash 支持 100 万 token 上下文,做长文档分析、代码仓库理解这种场景很合适。

踩坑点:百炼的模型 ID 命名有点混乱。qwen3.5-72b-instructqwen-plus 其实可能指向同一个模型,但计费不一样。建议直接用具体的模型 ID,别用别名。

方案二:OpenAI 兼容的聚合平台

如果你同时要用 GPT、Claude、Gemini、Qwen 多个模型,每家都注册一遍太折腾了。聚合平台的好处是一个 API Key 通吃。

我目前在用 ofox.ai,它兼容 OpenAI 协议,换个 base_url 就行:

from openai import OpenAI

client = OpenAI(
    api_key="sk-你的Key",
    base_url="https://api.ofox.ai/v1"
)

# 调 Qwen3.5
response = client.chat.completions.create(
    model="qwen/qwen3.5-72b-instruct",
    messages=[
        {"role": "user", "content": "用 FastAPI 写一个带限流的 API 网关"}
    ],
    stream=True
)

for chunk in response:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

同样的代码,把 model 换成 anthropic/claude-sonnet-4-6 就能调 Claude,换成 google/gemini-2.5-pro 就是 Gemini。不用改任何其他代码。

实测体验:国内直连延迟在 150-300ms 之间,比我之前直连百炼还快一点(可能走了国内加速节点)。流式输出很流畅,没遇到断流的情况。

方案三:Ollama 本地部署(轻量版)

严格来说这也算"部署",但 Ollama 把复杂度降到了最低:

# 安装 Ollama(macOS)
brew install ollama

# 拉取 Qwen3.5 的小模型
ollama pull qwen3.5:3b

# 启动服务
ollama serve

然后代码还是一样的 OpenAI SDK:

from openai import OpenAI

client = OpenAI(
    api_key="ollama",  # 随便填
    base_url="http://localhost:11434/v1"
)

response = client.chat.completions.create(
    model="qwen3.5:3b",
    messages=[
        {"role": "user", "content": "解释一下 Python 的 GIL"}
    ]
)

print(response.choices[0].message.content)

Ollama 的优势是完全离线、零成本。但 3B 参数的小模型在复杂编程任务上表现一般,适合做简单的文本处理和问答。想要好效果,还是得用云端的大模型。

Qwen3.5 的 thinking 模式

Qwen3.5 有个挺有意思的特性——内置思维链(thinking mode)。开启后模型会先在 <think> 标签里推理,再给出最终答案:

response = client.chat.completions.create(
    model="qwen/qwen3.5-72b-instruct",
    messages=[
        {"role": "user", "content": "一个水池,甲管注满需6小时,乙管排空需8小时,同时开两管多久注满?"}
    ],
    extra_body={"enable_thinking": True}
)

# 响应中会包含 <think>推理过程</think> 和最终答案
print(response.choices[0].message.content)

这个在做数学题、逻辑推理的时候效果提升很明显。但日常对话建议关掉,不然输出一大堆思考过程,token 消耗也会翻倍。

踩坑:不是所有平台都支持 enable_thinking 参数。百炼原生支持,聚合平台要看具体实现。如果不支持,可以换个思路——在 system prompt 里加一句"请先分析再回答",效果类似。

三种方案怎么选

需要离线? → Ollama
  ↓ 否
只用 Qwen? → 百炼
  ↓ 否
多模型切换? → 聚合平台

我个人的做法是百炼 + 聚合平台组合用。对 Qwen 模型要求高稳定性的场景走百炼,需要同时调 GPT/Claude/Gemini 做对比测试的场景走聚合平台。

小结

Qwen3.5 的 MoE 架构确实是个好东西——激活参数少意味着推理快、成本低,但完整参数量大意味着能力不打折。对于大多数开发者来说,调 API 是性价比最高的方式。

私有化部署适合有数据安全要求的企业,个人开发者和小团队,真没必要折腾显卡。把精力花在应用层,比折腾基础设施有意义得多。


热榜那篇部署教程确实写得好,但如果你跟我一样是"API 派",希望这篇能帮到你。有问题评论区见。