谷歌开源家族再添新成员,MoE + 稠密 + 实验架构,四款齐发
Gemma 4 系列模型已正式在我们平台上线。
本次共推出 4 款不同规格,覆盖高效推理、稳定性能和架构探索等多重场景。
一、 上新一览:四款齐发,各有所长
本次上新的 Gemma 4 模型如下(型号已按平台规范命名,与官方规格一一对应):
| 模型 | 规格说明 |
|---|---|
| gemma-4-26B-A4B-it | 26B 总参数,MoE架构,推理时仅激活 4B 参数 |
| gemma-4-31B-it | 31B 稠密模型,传统架构,性能稳定 |
| gemma-4-E2B-it | E2B 实验架构,指令优化版 |
| gemma-4-E4B-it | E4B 实验架构,指令优化版 |
全系列均带有 -it(指令微调) 后缀,对话与任务理解能力开箱即用,无需额外调优。
二、 核心新特性:架构层面的三重升级
特性一:MoE + 稠密双路线并行
Gemma 4 同时提供了混合专家架构和传统稠密架构两种选择:
● 26B-A4B:总参数量 26B,但推理时只激活 4B 参数。在效果可控的前提下大幅降低推理成本,适合资源受限的部署场景
● 31B:传统稠密模型,追求 稳定、可预期的性能表现,适合对延迟和输出一致性要求较高的生产环境。
开发者可以根据自己的算力和效果需求灵活选择。
特性二:实验架构 E2B / E4B—— 探索 Transformer 之外的可能
这两款模型采用了 不同于标准 Transformer 的实验性结构设计,由 Google 标注为实验版本。
具体架构细节以官方论文为准,但可以确定的是:
● E2B / E4B 并非简单调整参数规模,而是对模型内部计算模式进行了创新尝试。
● 对于 关注前沿模型结构的研究者、算法工程师,它们是进行对比分析、逆向拆解和新架构验证的宝贵素材。
特性三:指令优化全覆盖
四个模型全部经过指令微调(-it),相比基础版本:
● 对话更自然,遵循复杂指令的能力显著增强
● 无需精心设计 prompt 模板,即可完成 摘要、分类、角色扮演、结构化输出 等常见任务
三、 核心能力:任务微调已就绪,LoRA功能待开放
| 能力 | 状态 |
|---|---|
| 任务模式微调 | ✅ 已支持 |
| LoRA 对话+评估 | 🚧 测试中 |
目前 任务模式已支持Gemma 4全系模型微调,lora对话和评估暂不支持。
四、 顺便更新:Qwen 3.5 进展
除 Gemma 4 外,Qwen 3.5 系列 的 LoRA 对话支持也有新进展:
除 35B-A3B 和 122B 两个尺寸外,其余所有 Qwen 3.5 尺寸的 LoRA 对话均已支持,可正常使用。
如果您当前的核心需求是 低资源微调 + 对话任务,Qwen 3.5(非 35B/122B)仍是稳定选择。
五、 选型建议:一张表帮你做决策
| 如果你需要… | 推荐选 |
|---|---|
| 轻量高效推理 | gemma-4-26B-A4B-it |
| 稳定性能表现 | gemma-4-31B-it |
| 研究新架构 | gemma-4-E2B/E4B-it |
六、 总结:Gemma 4 带来的四个核心价值
1. 双架构并行 —— MoE 降本 + 稠密求稳,按需部署
2. 实验架构开放 —— 为技术探索提供真实的大规模模型素材
3. 指令优化全覆盖 —— 对话与任务能力开箱即用
4. 官方权重,平台完整上线 —— Google 轻量级模型的最新成果,已就绪
立即体验 在LlamaFactory Online体验Gemma 4 全系模型微调,也欢迎在社群中反馈你的使用体验、对比测试结果或改进建议。