谷歌 Gemma 4 发布，一把干掉Qwen 3.5？AI 大模型圈最近很热闹呀，阿里刚发布了Qwen 3.6 - pl

AI 大模型圈最近很热闹呀，阿里刚发布了Qwen 3.6 - plus，谷歌马上来凑热闹，发布了Gemma 4，这一代模型基于 Gemini 3 的研究成果，在保持高性能的同时，还采用了 Apache 2.0 开源协议，为商业化应用提供了极高的自由度。

Gemma 4 的提升并不局限于参数规模的变动，而是在底层架构与多模态融合效率上进行了深度重构。

Gemma 4 的四种规格

Gemma 4 系列推出了四种规格，精准覆盖了从移动端到专业工作站的部署需求。

E2B 与 E4B：这两个型号中的“E”代表有效参数（Effective）。E2B 拥有 2.3B 的有效参数，E4B 为 4.5B。它们专注于端侧设备的运行效率，能够在手机或平板上流畅运行。除了文本和图像，这两个小型号还原生支持音频输入。
31B Dense：这是一个高性能的稠密模型，主打逻辑推理质量，在长文本处理和复杂指令遵循上表现出色。
26B A4B ( MoE ) ：采用混合专家架构，总参数量 260 亿。由于推理时仅激活 40 亿活跃参数（Active），其响应速度极快，性能表现与 31B 模型相当。

架构层面的技术革新

Gemma 4 引入了多项新技术，以提升模型在长上下文和多模态任务中的稳定性。

每层嵌入（ PLE ）技术

这是小型号（E2B/E4B）的标志性改进。在传统架构中，词向量嵌入仅发生在输入层。PLE 为每个解码器层都增加了一个并行的、低维度的调节通道。每一层都能根据当前任务的需求，直接获取特定的词汇信息。这种设计增强了参数的表达效率。

混合注意力机制与双 RoPE 配置

模型交替使用局部滑动窗口注意力和全局全上下文注意力。小型号的滑动窗口设定为 512 词元，大型号则为 1024 词元。为了配合这种设计，模型在滑动层使用标准 RoPE，在全局层使用比例 RoPE（p-RoPE）。这确保了模型在处理 12.8 万甚至 25.6 万词元的长文本时，依然能保持逻辑的严密性。

共享 KV 缓存

为了优化内存占用，Gemma 4 的最后几层不再独立计算键和值的投影，而是复用前面层级的状态。这种优化在几乎不损失生成质量的前提下，减少了长文本生成时的显存开销。

全能的多模态实战表现

你以为 Gemma 4 还仅限于图文问答吗？那可就错了，它还支持纯文本和多模态函数调用、推理、代码补全和纠错。

GUI 检测

Gemma 4 具备出色的视觉定位能力。能识别图片中的 GUI 界面元素或日常物体，并直接以 JSON 格式输出坐标信息。这些坐标基于 1000x1000 的相对坐标系，开发者可以直接将其用于自动化脚本或交互界面开发。

多模态思维与函数调用

模型具备内置的思考模式，支持在执行任务前进行多步逻辑规划。在实际测试中，如果给出一张包含特定地标的照片并要求查询天气，模型会先通过视觉识别确定地理位置，随后自动生成调用天气工具的结构化代码。

深度视频理解

Gemma 4 能够分析视频帧序列并提取关键信息。小型号（E2B/E4B）支持带音频的视频输入，可以同步理解画面与背景声音，例如准确描述音乐节现场的氛围、歌手的衣着以及歌词背后的情感。大型号虽然不带音频，但依然能通过画面流准确解析视频中的复杂动作与场景变换。

高质量图像描述（字幕生成）

在图像描述任务中，Gemma 4 表现出了极高的叙事精度。它不仅能识别物体，还能捕捉光影细节、建筑风格以及具体的地理特征。例如在分析一张威尼斯的街景图时，模型能准确描述出圣马可广场的柱子、海鸥的羽毛纹理以及远处红屋顶建筑的细节，生成的描述文本层次分明且富有逻辑。

安装与部署全攻略

最最方便的，当然是通过 ServBay 一键部署。

首先用 ServBay 一键安装 Ollama。

然后直接安装Gemma 4就可以了，全程2分钟搞定。

安装完好，可以利用 any-to-any pipeline 可以同时处理图文和视频任务。

from transformers import pipeline
pipe = pipeline("any-to-any", model="google/gemma-4-e2b-it")

# 示例：处理带音频的视频
messages = [{"role": "user", "content": [{"type": "video", "image": "path/to/video.mp4"}, {"type": "text", "text": "视频里发生了什么？"}]}]
output = pipe(messages, load_audio_from_video=True)

微调与进阶应用

Gemma 4 为开发者提供了丰富的微调工具。TRL 库目前已支持多模态工具响应训练，模型可以学习如何根据环境反馈的图像信息做出决策。对于云端用户，可以通过 Vertex AI 的服务器训练任务进行 SFT 微调。如果更倾向于图形化界面，Unsloth Studio 则提供了便捷的 LoRA 训练方案，支持在本地或 Colab 环境下快速优化模型。

Gemma 4 的发布不仅展示了 Google DeepMind 在模型压缩与效率优化上的深厚积淀，也为开源社区贡献了一个极具竞争力的多模态底座。凭借 PLE 架构、MoE 设计以及广泛的工具链支持，该系列模型降低了高性能 AI 的应用门槛。无论是构建端侧实时应用，还是在云端部署复杂的智能体工作流，Gemma 4 都提供了一个兼顾性能与成本的优选方案。随着开发者生态的不断完善，这一系列模型将在更多垂直领域释放出实用价值。

谷歌 Gemma 4 发布，一把干掉Qwen 3.5？