Gemma 3:单卡运行的强大开源模型

4 阅读3分钟

单GPU或TPU上运行的超强模型:Gemma 3

Gemma 开源模型家族致力于让实用的AI技术更易获取。Gemma 3 是一系列轻量级、最先进的开源模型,基于与 Gemini 2.0 模型相同的研究和技术构建。这些模型专为快速运行而设计,可直接部署在从手机、笔记本电脑到工作站的设备上。

Gemma 3 提供多种尺寸(1B、4B、12B 和 27B),可根据特定硬件和性能需求选择最佳模型。

开发者可用的新能力

  • 世界最佳单加速器模型:Gemma 3 在其尺寸级别提供了最先进的性能。在 LMArena 排行榜的初步人类偏好评估中,其表现优于 Llama3-405B、DeepSeek-V3 和 o3-mini。这有助于创建能运行在单 GPU 或 TPU 主机上的高互动用户体验。

  • 支持 140 多种语言:Gemma 3 开箱即支持超过 35 种语言,并预训练支持超过 140 种语言。

  • 先进的文本和视觉推理能力:可轻松构建分析图像、文本和短视频的应用。

  • 扩展的上下文窗口:提供 128k 令牌的上下文窗口,使应用能够处理和理解大量信息。

  • 函数调用:支持函数调用和结构化输出,帮助自动化任务并构建智能体(agentic)体验。

  • 量化模型实现高性能:Gemma 3 引入了官方量化版本,在保持高精度的同时减小了模型尺寸和计算需求。

ShieldGemma 2 内置图像安全功能

ShieldGemma 2 是一个基于 Gemma 3 构建的 4B 参数图像安全检测器。它输出三个安全类别(危险内容、色情内容和暴力内容)的安全标签。开发者可进一步定制以满足自身需求。

与现有工具无缝集成

Gemma 3 和 ShieldGemma 2 可无缝集成到现有工作流:

  • 支持 Hugging Face Transformers、Ollama、JAX、Keras、PyTorch、Google AI Edge、UnSloth、vLLM 和 Gemma.cpp 等工具。
  • 在 Google AI Studio 中即时体验,或通过 Kaggle、Hugging Face 下载模型。
  • 使用改进后的代码库进行高效微调和推理。可在 Google Colab、Vertex AI 甚至游戏 GPU 上训练和适配模型。
  • 部署选项包括 Vertex AI、Cloud Run、Google GenAI API、本地环境等。
  • NVIDIA 已直接优化 Gemma 3 模型,可在任意尺寸 GPU(从 Jetson Nano 到最新 Blackwell 芯片)上获得最高性能。Gemma 3 现已在 NVIDIA API Catalog 中提供。
  • 针对 Google Cloud TPU 优化,并通过开源 ROCm™ 栈与 AMD GPU 集成。对于 CPU 执行,Gemma.cpp 提供了直接解决方案。

入门指南

  • 即时体验:在浏览器中通过 Google AI Studio 直接体验全精度 Gemma 3。从 Google AI Studio 获取 API 密钥,配合 Google GenAI SDK 使用。
  • 定制与构建:从 Hugging Face、Ollama 或 Kaggle 下载模型。使用 Hugging Face Transformers 库或首选开发环境轻松微调和适配模型。
  • 部署与扩展:通过 Vertex AI 大规模部署自定义的 Gemma 3 模型。在 Cloud Run 上使用 Ollama 运行推理。通过 NVIDIA API Catalog 中的 NVIDIA NIM 开始使用。FINISHED