【内含 OpenAI API 调用教程】超强逻辑推理能力,vLLM + Qwen-30B-A3B 登场!

245 阅读3分钟

image.png Qwen3 项目是由阿里 Qwen 团队于 2025 年发布,相关技术报告为 「Qwen3: Think Deeper, Act Faster」

Qwen3 是 Qwen 系列中最新一代大型语言模型,提供全面的密集模型和混合专家 (MoE) 模型。 Qwen3 基于丰富的训练经验,在推理、指令遵循、代理能力和多语言支持方面取得了突破性进展。Qwen3 支持在思考模式(用于复杂逻辑推理、数学和编码)和 非思考模式(用于高效通用对话)之间无缝切换,确保在各种场景下的最佳性能;有显著增强的推理能力,在数学、代码生成和常识逻辑推理方面超越了之前的 QwQ 和 Qwen2.5 指令模型。同时,Qwen3 支持 100 多种语言和方言,具有强大的多语言理解、推理、指令跟随和生成能力。

教程链接:go.openbayes.com/tU7Gi

使用云平台: OpenBayes

<openbayes.com/console/sig…>

首先点击「公共教程」,在公共教程中找到「使用vLLM+ Open-webUl 部署 Qwen3-30B-A3B 」,单击打开。

image.png

页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

image.png

平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。目前平台计费方式已经更新,大家可以按照需求选择「按量付费」或「包日/周/月」。点击「继续执行」,等待分配资源。

image.png

image.png

一、web 前端界面

数据和代码都已经同步完成了,大约等待 5 分钟后,启动访问地址

image.png

来到这个界面就可以与模型进行对话了。我们默认提供 A3B 模型,可在这里输入对话内容。

image.png

image.png

image.png

image.png

二、OpenAI API 调用

1.获取基础配置

1. 获取基础配置

# 必要参数配置
BASE_URL = "<API 地址>/v1"  # 生产环境
MODEL_NAME = "Qwen3-30B-A3B"  # 默认模型名称
API_KEY = "Empty"  # 未设置API_KEY

获取 API 地址

2.1.png

2. 不同调用方式

2.1 原生 Python 调用

import openai
# 创建 OpenAI 客户端实例
client = openai.OpenAI(
    api_key=API_KEY,  # 请替换为你的实际 API Key
    base_url=BASE_URL  # 替换为你的实际 base_url
)
# 发送聊天消息
response = client.chat.completions.create(
    model=MODEL_NAME,
    messages=[
        {"role": "user", "content": "你好!"}
    ],
    temperature=0.7, 
)
# 输出回复内容
print(response.choices[0].message.content)
# 方法2:requests库(更灵活)
import requests
headers = {
    "Authorization": f"Bearer {API_KEY}",
    "Content-Type": "application/json"
}
data = {
    "model": MODEL_NAME,
    "messages": [{"role": "user", "content": "你好!"}]
}
response = requests.post(f"{BASE_URL}/chat/completions", headers=headers, json=data)

2.2 开发工具集成

如 VScode 安装官方CLINE插件

image.png

2.3 curl 调用

curl <BASE_URL>/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": <MODEL_NAME>,
    "messages": [{"role": "user", "content": "你好!"}]
  }'

四、切换模型

本教程默认使用 Qwen3-30B-A3B 模型,如需切换为 Qwen3-32B,请按以下步骤操作:

1. 关闭当前模型服务

在终端运行以下命令,找到 vllm 进程并关闭:

ps aux | grep vllm

找到进程号(PID),然后执行:

kill [PID]

image.png

2. 启动新模型

例如,启动 Qwen3-32B

vllm serve /input2/Qwen3-32B \
  --tensor_parallel_size 1 \
  --host 0.0.0.0 \
  --port 8080 \
  --gpu-memory-utilization 0.95 \
  --max-num-seqs 16 \
  --served-model-name Qwen3-32B \
  --enable-reasoning \
  --reasoning-parser deepseek_r1

image.png

修改说明:

  • /input0/Qwen3-30B-A3B → 替换为你的目标模型路径(如 Qwen3-32B)。
  • --served-model-name → 修改为对应模型名称(如 Qwen3-32B)。

完成后,新模型即可使用!