Token 不再焦虑:用 GPUStack + OpenClaw 搭一个“无限用”的本地 AI 助手

0 阅读1分钟

这两年,越来越多团队把 AI 接入了日常工作流。但很快,一个现实问题摆在了面前:模型用得越多,Token 花得越快,成本和心理压力也随之上涨。 很多人一边依赖 AI 提效,一边又不得不「省着用」「少让它多想」。到最后,AI 反而成了一种被精打细算的消耗品。如果 AI 能跑在自己的 GPU 上,不按 Token 计费、可以随时对话、长期运行在协作工具里, 它才更像一个真正的“工作助手”。

基于 GPUStack 提供的本地模型能力,结合 OpenClaw(支持 WhatsApp、Telegram、Discord、Slack、飞书等多种协作平台) 与飞书,本文将一步步演示如何构建一个可真实使用、可持续运行、几乎不再关心 Token 消耗的本地 AI 助手。

一、使用 GPUStack 部署模型并准备接入信息 在接入 OpenClaw 之前,我们需要先在 GPUStack 中完成模型部署,并获取模型服务的访问信息。 本节将以 Qwen3.5-35B-A3B 为例,演示从自定义推理后端 部署模型 获取接入信息 的完整流程。 1. 准备环境与版本说明 GPUStack 版本:v2.0.3
自定义推理后端镜像:
swr.cn-south-1.myhuaweicloud.com/gpustack/vl…
模型权重:Qwen/Qwen3.5-35B-A3B 2. 配置自定义推理后端(vLLM) 在 GPUStack 控制台中,进入:
「推理后端」→「编辑 vLLM」→「添加版本」

图片

  3. 部署 Qwen3.5-35B-A3B 模型

图片

 

图片

 4. 获取 GPUStack 模型接入信息
需要记录以下三项:

 API Base URL
Model ID
API Key(在 GPUStack 中自行创建)

图片