Claude Code 对接本地 Gemma-4-26B 实测:换个模型,速度直接快 5 倍

5 阅读6分钟

作者:JeecgBoot | 环境:Mac Studio M4 Max 128GB・LM Studio 0.4.11・Claude Code v2.1.104

继上一篇《Claude Code 对接谷歌 Gemma 4 ?M4 Max 实测告诉你为什么行不通》测试的是官方原版模型 google/gemma-4-26b-a4b | Q4_K_M 量化 | 17.99 GB 结论:速度太慢,体验差! 这次换了一个社区魔改蒸馏版 gemma-4-26b-a4b-it-claude-opus-heretic-ara | Q4_K_XL 量化 | 18.34 GB 结论:有一定可行性

两个模型体积接近,但生成速度相差 5~6 倍。选对模型,比调参数更重要。

API 兼容 Anthropic 格式,生成速度 78 tok/s,成功完成 JeecgBoot 教师表前后端代码生成任务,数据完全本地私有。适合日常 CRUD 开发,复杂逻辑建议人工复核。


01・测试环境

模型配置

参数
Modelgemma-4-26b-a4b-it-claude-opus-heretic-ara
QuantizationQ4_K_XL
Size on disk18.34 GB
ArchitectureGemma4 MoE
Active Params~4B / 26B
Parallel Slots4
Context Length256K
CompatibilityOpenAI + Anthropic 双兼容

连接架构

Claude Code v2.1.104
        ↓  Anthropic-compatible API
LM Studio (192.168.1.166:1234)
        ↓  本地推理
gemma-4-26b-a4b-it-claude-opus-heretic-ara (Q4_K_XL · 18.34 GB)

02・LM Studio 聊天速度实测

三模型横向对比(256K 上下文)

测试场景:问题 1「jeecgboot 是什么」・问题 2「生成教师表前后端代码」

模型Q1 速度Q1 TokenQ1 耗时Q2 速度Q2 TokenQ2 耗时
gemma-4-26b-a4b-it-claude-opus-heretic-ara (26B A4B)78.60 tok/s14797.23s76.87 tok/s14741.06s
gemma-4-31b-distill:212.13 tok/s27110.55s11.35 tok/s8514.32s
google/gemma-4-31b14.21 tok/s13303.36s12.97 tok/s178919.12s

gemma-4-26b-a4b-it-claude-opus-heretic-ara 生成速度领先其他两个模型 5~6 倍

为什么 heretic-ara 快 5~6 倍?

采用 A4B(Active 4B)MoE 稀疏激活架构,总参数 26B 但每次推理只激活约 4B 参数,相当于用 4B 的算力跑 26B 的模型。Q4_K_XL 量化进一步压缩内存占用,大幅降低内存带宽瓶颈。这是 heretic-ara 在本地推理中碾压同级模型的核心原因。

Prompt Processing 日志实测

2026-04-13 16:00:56 [INFO] gemma-4-26b-a4b  Prompt processing progress: 82.5%  n_tokens=27136
2026-04-13 16:00:57 [INFO] gemma-4-26b-a4b  Prompt processing progress: 84.1%  n_tokens=27648
2026-04-13 16:00:57 [INFO] gemma-4-26b-a4b  Prompt processing progress: 85.6%  n_tokens=28160  batch=512
2026-04-13 16:00:58 [INFO] gemma-4-26b-a4b  Prompt processing progress: 87.2%  n_tokens=28672

→ PP 速度实测:~1500 tok/s  |  batch_size=512  |  每批约 0.33s

03・Claude Code 对接测试:Agentic 耗时分析

实测任务「jeecgboot 是什么」总耗时 1m 20s,「生成教师表前后端代码」总耗时 1m 28s。慢的不是模型,而是 Claude Code 的 agentic 工作链。

阶段耗时说明
阶段 1:第一次 thought~20sClaude Code 评估任务类型,判断是否需要调用工具。系统指令规定「哪怕有 1% 的概率 skill 有用,都要调用」
阶段 2:Skill 加载~30s对纯知识问答也触发了技能加载,读取项目文件结构、注入上下文,prompt token 量膨胀至 32K+
阶段 3:第二次 thought~15s加载 skill 后重新推理,决定如何回答,相当于完整地跑了第二次 PP + 推理
阶段 4:实际生成输出~15s真正的 token 生成阶段,按 78 tok/s 计算,1500 token 约需 19s,速度完全正常

核心结论: 模型本身速度没有问题(78 tok/s 完全够用),瓶颈在于 Claude Code 的多步 agentic 决策链。每次工具调用都是一次完整的 API 往返(含完整上下文),N 次工具调用 × 每次 30~90s = 总等待时间。代码生成 / 修改类任务 agentic 开销有实际价值,纯问答建议走 LM Studio 直接对话。


04・代码生成质量:JeecgBoot 教师表输出评估

任务:生成教师表 SQL + JeecgBoot 前后端完整代码・耗时 1m 28s

检查项期望实际输出评级
SQL Flyway 路径规范V{date}__xx.sqlV20260413__01__create_teacher_table.sql,日期自动正确✅ 优秀
字段完整性基础业务字段姓名 / 年龄 / 性别 / 学科 / 手机 / 邮箱 / 地址 / 创建时间 / 操作✅ 优秀
Vue3 写法规范script setup + TSscript setup lang="ts" + reactive + ref✅ 优秀
Ant Design Vue 组件a-table, a-carda-table + teacherModal 弹窗组件引用✅ 优秀
后续操作引导操作步骤说明Flyway 执行 / Controller / Service / Mapper 创建步骤清晰✅ 优秀
方法体完整性完整 CRUD 逻辑search/edit/delete 方法仅为骨架,需人工补充⚠️ 需补充
后端 Java 代码Controller+Service+Mapper提示需要继续生成,首次未完整输出⚠️ 需追问

05・适用场景

✅ 推荐使用

  • 脚手架 / 模板代码生成
  • CRUD 增删改查(如本次教师表)
  • 注释补全、代码解释
  • 低风险重构辅助
  • 学习 / 个人 / 内部项目开发
  • 代码隐私敏感的企业场景(数据完全不出内网)
  • 多轮对话调试(78 tok/s 体验流畅)

❌ 不推荐使用

  • 核心业务逻辑(需人工严格复核)
  • 高并发 / 安全敏感模块
  • 生产环境直接部署的关键代码
  • 超长推理链任务(MoE 偶有跳步)
  • 纯知识问答(建议绕开 Claude Code agentic 层)

06・综合评分

维度评分说明
API 兼容性100%Anthropic 格式完全兼容,零额外配置
代码生成质量80%结构规范,方法体需人工补充
响应速度体验60%Agentic 链叠加导致 1~2 分钟,可接受
数据隐私安全100%完全本地,代码不出内网

推荐策略:双模型组合使用

gemma-4-26b-a4b-it-claude-opus-heretic-ara(本地,78 tok/s)
→ 承担 80% 日常开发:CRUD 生成 / 代码补全 / 多轮调试 / 快速问答
→ 优势:数据完全私有,零 API 费用

官方 Claude API(云端,>200 tok/s)
→ 兜底 20% 关键任务:复杂架构设计 / 核心逻辑 / 生产级安全模块
→ 优势:质量更有保障

两者结合,既控制了成本和隐私风险,又不在关键场景掉链子。对于以 JeecgBoot 为核心的企业内部管理系统开发,本地 heretic-ara 完全能够胜任日常的 80% 工作量。


⚠️ 注意:gemma-4-26b-a4b-it-claude-opus-heretic-ara 是社区魔改蒸馏版(非官方 Google 模型),复杂推理链存在跳步风险;Q4_K_XL 量化在超长推理任务上精度略有损失;建议对生成的关键业务代码人工复核后再使用。