作者:JeecgBoot | 环境:Mac Studio M4 Max 128GB・LM Studio 0.4.11・Claude Code v2.1.104
继上一篇《Claude Code 对接谷歌 Gemma 4 ?M4 Max 实测告诉你为什么行不通》测试的是官方原版模型 google/gemma-4-26b-a4b | Q4_K_M 量化 | 17.99 GB 结论:速度太慢,体验差! 这次换了一个社区魔改蒸馏版 gemma-4-26b-a4b-it-claude-opus-heretic-ara | Q4_K_XL 量化 | 18.34 GB 结论:有一定可行性。
两个模型体积接近,但生成速度相差 5~6 倍。选对模型,比调参数更重要。
API 兼容 Anthropic 格式,生成速度 78 tok/s,成功完成 JeecgBoot 教师表前后端代码生成任务,数据完全本地私有。适合日常 CRUD 开发,复杂逻辑建议人工复核。
01・测试环境
模型配置
| 参数 | 值 |
|---|---|
| Model | gemma-4-26b-a4b-it-claude-opus-heretic-ara |
| Quantization | Q4_K_XL |
| Size on disk | 18.34 GB |
| Architecture | Gemma4 MoE |
| Active Params | ~4B / 26B |
| Parallel Slots | 4 |
| Context Length | 256K |
| Compatibility | OpenAI + Anthropic 双兼容 |
连接架构
Claude Code v2.1.104
↓ Anthropic-compatible API
LM Studio (192.168.1.166:1234)
↓ 本地推理
gemma-4-26b-a4b-it-claude-opus-heretic-ara (Q4_K_XL · 18.34 GB)
02・LM Studio 聊天速度实测
三模型横向对比(256K 上下文)
测试场景:问题 1「jeecgboot 是什么」・问题 2「生成教师表前后端代码」
| 模型 | Q1 速度 | Q1 Token | Q1 耗时 | Q2 速度 | Q2 Token | Q2 耗时 |
|---|---|---|---|---|---|---|
| gemma-4-26b-a4b-it-claude-opus-heretic-ara (26B A4B) | 78.60 tok/s | 1479 | 7.23s | 76.87 tok/s | 1474 | 1.06s |
| gemma-4-31b-distill:2 | 12.13 tok/s | 271 | 10.55s | 11.35 tok/s | 851 | 4.32s |
| google/gemma-4-31b | 14.21 tok/s | 1330 | 3.36s | 12.97 tok/s | 1789 | 19.12s |
gemma-4-26b-a4b-it-claude-opus-heretic-ara 生成速度领先其他两个模型 5~6 倍。
为什么 heretic-ara 快 5~6 倍?
采用 A4B(Active 4B)MoE 稀疏激活架构,总参数 26B 但每次推理只激活约 4B 参数,相当于用 4B 的算力跑 26B 的模型。Q4_K_XL 量化进一步压缩内存占用,大幅降低内存带宽瓶颈。这是 heretic-ara 在本地推理中碾压同级模型的核心原因。
Prompt Processing 日志实测
2026-04-13 16:00:56 [INFO] gemma-4-26b-a4b Prompt processing progress: 82.5% n_tokens=27136
2026-04-13 16:00:57 [INFO] gemma-4-26b-a4b Prompt processing progress: 84.1% n_tokens=27648
2026-04-13 16:00:57 [INFO] gemma-4-26b-a4b Prompt processing progress: 85.6% n_tokens=28160 batch=512
2026-04-13 16:00:58 [INFO] gemma-4-26b-a4b Prompt processing progress: 87.2% n_tokens=28672
→ PP 速度实测:~1500 tok/s | batch_size=512 | 每批约 0.33s
03・Claude Code 对接测试:Agentic 耗时分析
实测任务「jeecgboot 是什么」总耗时 1m 20s,「生成教师表前后端代码」总耗时 1m 28s。慢的不是模型,而是 Claude Code 的 agentic 工作链。
| 阶段 | 耗时 | 说明 |
|---|---|---|
| 阶段 1:第一次 thought | ~20s | Claude Code 评估任务类型,判断是否需要调用工具。系统指令规定「哪怕有 1% 的概率 skill 有用,都要调用」 |
| 阶段 2:Skill 加载 | ~30s | 对纯知识问答也触发了技能加载,读取项目文件结构、注入上下文,prompt token 量膨胀至 32K+ |
| 阶段 3:第二次 thought | ~15s | 加载 skill 后重新推理,决定如何回答,相当于完整地跑了第二次 PP + 推理 |
| 阶段 4:实际生成输出 | ~15s | 真正的 token 生成阶段,按 78 tok/s 计算,1500 token 约需 19s,速度完全正常 |
核心结论: 模型本身速度没有问题(78 tok/s 完全够用),瓶颈在于 Claude Code 的多步 agentic 决策链。每次工具调用都是一次完整的 API 往返(含完整上下文),N 次工具调用 × 每次 30~90s = 总等待时间。代码生成 / 修改类任务 agentic 开销有实际价值,纯问答建议走 LM Studio 直接对话。
04・代码生成质量:JeecgBoot 教师表输出评估
任务:生成教师表 SQL + JeecgBoot 前后端完整代码・耗时 1m 28s
| 检查项 | 期望 | 实际输出 | 评级 |
|---|---|---|---|
| SQL Flyway 路径规范 | V{date}__xx.sql | V20260413__01__create_teacher_table.sql,日期自动正确 | ✅ 优秀 |
| 字段完整性 | 基础业务字段 | 姓名 / 年龄 / 性别 / 学科 / 手机 / 邮箱 / 地址 / 创建时间 / 操作 | ✅ 优秀 |
| Vue3 写法规范 | script setup + TS | script setup lang="ts" + reactive + ref | ✅ 优秀 |
| Ant Design Vue 组件 | a-table, a-card | a-table + teacherModal 弹窗组件引用 | ✅ 优秀 |
| 后续操作引导 | 操作步骤说明 | Flyway 执行 / Controller / Service / Mapper 创建步骤清晰 | ✅ 优秀 |
| 方法体完整性 | 完整 CRUD 逻辑 | search/edit/delete 方法仅为骨架,需人工补充 | ⚠️ 需补充 |
| 后端 Java 代码 | Controller+Service+Mapper | 提示需要继续生成,首次未完整输出 | ⚠️ 需追问 |
05・适用场景
✅ 推荐使用
- 脚手架 / 模板代码生成
- CRUD 增删改查(如本次教师表)
- 注释补全、代码解释
- 低风险重构辅助
- 学习 / 个人 / 内部项目开发
- 代码隐私敏感的企业场景(数据完全不出内网)
- 多轮对话调试(78 tok/s 体验流畅)
❌ 不推荐使用
- 核心业务逻辑(需人工严格复核)
- 高并发 / 安全敏感模块
- 生产环境直接部署的关键代码
- 超长推理链任务(MoE 偶有跳步)
- 纯知识问答(建议绕开 Claude Code agentic 层)
06・综合评分
| 维度 | 评分 | 说明 |
|---|---|---|
| API 兼容性 | 100% | Anthropic 格式完全兼容,零额外配置 |
| 代码生成质量 | 80% | 结构规范,方法体需人工补充 |
| 响应速度体验 | 60% | Agentic 链叠加导致 1~2 分钟,可接受 |
| 数据隐私安全 | 100% | 完全本地,代码不出内网 |
推荐策略:双模型组合使用
gemma-4-26b-a4b-it-claude-opus-heretic-ara(本地,78 tok/s)
→ 承担 80% 日常开发:CRUD 生成 / 代码补全 / 多轮调试 / 快速问答
→ 优势:数据完全私有,零 API 费用
官方 Claude API(云端,>200 tok/s)
→ 兜底 20% 关键任务:复杂架构设计 / 核心逻辑 / 生产级安全模块
→ 优势:质量更有保障
两者结合,既控制了成本和隐私风险,又不在关键场景掉链子。对于以 JeecgBoot 为核心的企业内部管理系统开发,本地 heretic-ara 完全能够胜任日常的 80% 工作量。
⚠️ 注意:gemma-4-26b-a4b-it-claude-opus-heretic-ara 是社区魔改蒸馏版(非官方 Google 模型),复杂推理链存在跳步风险;Q4_K_XL 量化在超长推理任务上精度略有损失;建议对生成的关键业务代码人工复核后再使用。