Gemma 4 私有部署与文本、图像工具调用全教程（上）随着多模态和智能体能力逐渐成为大模型的标配，如何在本地环境中高效

随着多模态和智能体能力逐渐成为大模型的标配，如何在本地环境中高效部署正在成为越来越多开发者关注的重点。近期，Gemma 4 正式发布，模型能力对标 Qwen 3.5，在推理能力、多模态支持以及工具调用等方面都有明显提升。

Gemma 4 在设计上更加全面：原生支持文本、图像、音频甚至视频输入，并具备思考模式、工具调用、结构化输出等能力，可以直接用于构建智能体工作流。这也意味着，单一模型即可完整实现一套接近生产形态的 AI 能力。

本文将基于 GPUStack，在本地环境中完整部署 Gemma 4 模型，并逐步测试其各项能力，包括文本生成、图像理解、音频与视频处理、思考模式（thinking）、以及工具调用（tool calling）等。同时，也会结合实际部署过程，介绍在推理后端、模型配置以及多模态支持方面需要注意的关键点。

如果你希望在本地搭建一套具备多模态与智能体能力的大模型环境，这篇文章可以作为一个完整的实践参考。

GPUStack 安装与集群初始化

GPUStack 是一个开源 GPU 集群管理与 AI 模型服务平台，旨在高效部署 AI 模型。它可以配置并编排多种推理引擎——如 vLLM、SGLang、TensorRT-LLM，甚至自定义引擎——以在 GPU 集群上实现最佳性能。核心功能包括多 GPU 集群管理、可插拔推理引擎架构、Day 0 模型支持、性能优化配置（低延迟/高吞吐）、以及企业级运维能力，如故障恢复、负载均衡、监控与权限管理。

在开始部署 Gemma 4 之前，首先需要完成 GPUStack 控制面的安装，并将 NVIDIA GPU 节点纳入管理。

准备容器环境

GPUStack 以容器方式运行，因此需要提前准备好容器运行环境（如 Docker、Podman 或 Kubernetes）。本文以 Docker 为例进行说明。

在各节点上安装 Docker，确保服务已正常启动：docker info

启动 GPUStack Server

GPUStack Server 无需依赖 GPU，可运行在普通 CPU 节点上，也可运行在 GPU 节点。本文以一台双卡 NVIDIA 4090 48G 节点为实验环境，在该节点上启动 GPUStack Server 容器：

sudo docker run -d --name gpustack \
--restart unless-stopped \
-p 80:80 \
--volume gpustack-data:/var/lib/gpustack \
swr.cn-south-1.myhuaweicloud.com/gpustack/gpustack:v2.1.1 \
--debug --bootstrap-password GPUStack@123

关键参数说明：

• -p 80:80：用于对外暴露 Web 控制台端口；如需修改为其他端口（例如 9999），可调整为 -p 9999:80。
• --volume：持久化平台数据（包括模型服务、计量数据、API Key 等）
• --bootstrap-password：初始化 admin 用户密码
• --debug：开启调试日志，便于排查问题

容器启动后，可以通过日志确认服务是否正常运行：docker logs -f gpustack