Token 不再焦虑：用 GPUStack + OpenClaw 搭一个“无限用”的本地 AI 助手这两年，越来越多团队

这两年，越来越多团队把 AI 接入了日常工作流。但很快，一个现实问题摆在了面前：模型用得越多，Token 花得越快，成本和心理压力也随之上涨。 很多人一边依赖 AI 提效，一边又不得不「省着用」「少让它多想」。到最后，AI 反而成了一种被精打细算的消耗品。如果 AI 能跑在自己的 GPU 上，不按 Token 计费、可以随时对话、长期运行在协作工具里， 它才更像一个真正的“工作助手”。

基于 GPUStack 提供的本地模型能力，结合 OpenClaw（支持 WhatsApp、Telegram、Discord、Slack、飞书等多种协作平台）与飞书，本文将一步步演示如何构建一个可真实使用、可持续运行、几乎不再关心 Token 消耗的本地 AI 助手。

一、使用 GPUStack 部署模型并准备接入信息 在接入 OpenClaw 之前，我们需要先在 GPUStack 中完成模型部署，并获取模型服务的访问信息。本节将以 Qwen3.5-35B-A3B 为例，演示从自定义推理后端 → 部署模型 → 获取接入信息 的完整流程。 1. 准备环境与版本说明 GPUStack 版本：v2.0.3
自定义推理后端镜像：
swr.cn-south-1.myhuaweicloud.com/gpustack/vl…
模型权重：Qwen/Qwen3.5-35B-A3B 2. 配置自定义推理后端（vLLM） 在 GPUStack 控制台中，进入：
「推理后端」→「编辑 vLLM」→「添加版本」

3. 部署 Qwen3.5-35B-A3B 模型

4. 获取 GPUStack 模型接入信息
需要记录以下三项：

API Base URL
Model ID
API Key（在 GPUStack 中自行创建）