随着多模态和智能体能力逐渐成为大模型的标配,如何在本地环境中高效部署正在成为越来越多开发者关注的重点。近期,Gemma 4 正式发布,模型能力对标 Qwen 3.5,在推理能力、多模态支持以及工具调用等方面都有明显提升。
Gemma 4 在设计上更加全面:原生支持文本、图像、音频甚至视频输入,并具备思考模式、工具调用、结构化输出等能力,可以直接用于构建智能体工作流。这也意味着,单一模型即可完整实现一套接近生产形态的 AI 能力。
本文将基于 GPUStack,在本地环境中完整部署 Gemma 4 模型,并逐步测试其各项能力,包括文本生成、图像理解、音频与视频处理、思考模式(thinking)、以及工具调用(tool calling)等。同时,也会结合实际部署过程,介绍在推理后端、模型配置以及多模态支持方面需要注意的关键点。
如果你希望在本地搭建一套具备多模态与智能体能力的大模型环境,这篇文章可以作为一个完整的实践参考。
GPUStack 安装与集群初始化
GPUStack 是一个开源 GPU 集群管理与 AI 模型服务平台,旨在高效部署 AI 模型。它可以配置并编排多种推理引擎——如 vLLM、SGLang、TensorRT-LLM,甚至自定义引擎——以在 GPU 集群上实现最佳性能。核心功能包括多 GPU 集群管理、可插拔推理引擎架构、Day 0 模型支持、性能优化配置(低延迟/高吞吐)、以及企业级运维能力,如故障恢复、负载均衡、监控与权限管理。
在开始部署 Gemma 4 之前,首先需要完成 GPUStack 控制面的安装,并将 NVIDIA GPU 节点纳入管理。
准备容器环境
GPUStack 以容器方式运行,因此需要提前准备好容器运行环境(如 Docker、Podman 或 Kubernetes)。本文以 Docker 为例进行说明。
在各节点上安装 Docker,确保服务已正常启动:docker info
启动 GPUStack Server
GPUStack Server 无需依赖 GPU,可运行在普通 CPU 节点上,也可运行在 GPU 节点。本文以一台双卡 NVIDIA 4090 48G 节点为实验环境,在该节点上启动 GPUStack Server 容器:
sudo docker run -d --name gpustack \
--restart unless-stopped \
-p 80:80 \
--volume gpustack-data:/var/lib/gpustack \
swr.cn-south-1.myhuaweicloud.com/gpustack/gpustack:v2.1.1 \
--debug --bootstrap-password GPUStack@123
关键参数说明:
- • -p 80:80:用于对外暴露 Web 控制台端口;如需修改为其他端口(例如 9999),可调整为 -p 9999:80。
- • --volume:持久化平台数据(包括模型服务、计量数据、API Key 等)
- • --bootstrap-password:初始化 admin 用户密码
- • --debug:开启调试日志,便于排查问题
容器启动后,可以通过日志确认服务是否正常运行:docker logs -f gpustack