Claude Code 对接本地 Gemma-4-26B 实测：换个模型，速度直接快 5 倍继上一篇《Claude Co

作者：JeecgBoot | 环境：Mac Studio M4 Max 128GB・LM Studio 0.4.11・Claude Code v2.1.104

继上一篇《Claude Code 对接谷歌 Gemma 4 ？M4 Max 实测告诉你为什么行不通》测试的是官方原版模型 google/gemma-4-26b-a4b | Q4_K_M 量化 | 17.99 GB 结论：速度太慢，体验差！这次换了一个社区魔改蒸馏版 gemma-4-26b-a4b-it-claude-opus-heretic-ara | Q4_K_XL 量化 | 18.34 GB 结论：有一定可行性。

两个模型体积接近，但生成速度相差 5~6 倍。选对模型，比调参数更重要。

API 兼容 Anthropic 格式，生成速度 78 tok/s，成功完成 JeecgBoot 教师表前后端代码生成任务，数据完全本地私有。适合日常 CRUD 开发，复杂逻辑建议人工复核。

01・测试环境

模型配置

参数	值
Model	gemma-4-26b-a4b-it-claude-opus-heretic-ara
Quantization	Q4_K_XL
Size on disk	18.34 GB
Architecture	Gemma4 MoE
Active Params	~4B / 26B
Parallel Slots	4
Context Length	256K
Compatibility	OpenAI + Anthropic 双兼容

连接架构

Claude Code v2.1.104
        ↓  Anthropic-compatible API
LM Studio (192.168.1.166:1234)
        ↓  本地推理
gemma-4-26b-a4b-it-claude-opus-heretic-ara (Q4_K_XL · 18.34 GB)

02・LM Studio 聊天速度实测

三模型横向对比（256K 上下文）

测试场景：问题 1「jeecgboot 是什么」・问题 2「生成教师表前后端代码」

模型	Q1 速度	Q1 Token	Q1 耗时	Q2 速度	Q2 Token	Q2 耗时
gemma-4-26b-a4b-it-claude-opus-heretic-ara (26B A4B)	78.60 tok/s	1479	7.23s	76.87 tok/s	1474	1.06s
gemma-4-31b-distill:2	12.13 tok/s	271	10.55s	11.35 tok/s	851	4.32s
google/gemma-4-31b	14.21 tok/s	1330	3.36s	12.97 tok/s	1789	19.12s

gemma-4-26b-a4b-it-claude-opus-heretic-ara 生成速度领先其他两个模型 5~6 倍。

为什么 heretic-ara 快 5~6 倍？

采用 A4B（Active 4B）MoE 稀疏激活架构，总参数 26B 但每次推理只激活约 4B 参数，相当于用 4B 的算力跑 26B 的模型。Q4_K_XL 量化进一步压缩内存占用，大幅降低内存带宽瓶颈。这是 heretic-ara 在本地推理中碾压同级模型的核心原因。

Prompt Processing 日志实测

2026-04-13 16:00:56 [INFO] gemma-4-26b-a4b  Prompt processing progress: 82.5%  n_tokens=27136
2026-04-13 16:00:57 [INFO] gemma-4-26b-a4b  Prompt processing progress: 84.1%  n_tokens=27648
2026-04-13 16:00:57 [INFO] gemma-4-26b-a4b  Prompt processing progress: 85.6%  n_tokens=28160  batch=512
2026-04-13 16:00:58 [INFO] gemma-4-26b-a4b  Prompt processing progress: 87.2%  n_tokens=28672

→ PP 速度实测：~1500 tok/s  |  batch_size=512  |  每批约 0.33s

03・Claude Code 对接测试：Agentic 耗时分析

实测任务「jeecgboot 是什么」总耗时 1m 20s，「生成教师表前后端代码」总耗时 1m 28s。慢的不是模型，而是 Claude Code 的 agentic 工作链。

阶段	耗时	说明
阶段 1：第一次 thought	~20s	Claude Code 评估任务类型，判断是否需要调用工具。系统指令规定「哪怕有 1% 的概率 skill 有用，都要调用」
阶段 2：Skill 加载	~30s	对纯知识问答也触发了技能加载，读取项目文件结构、注入上下文，prompt token 量膨胀至 32K+
阶段 3：第二次 thought	~15s	加载 skill 后重新推理，决定如何回答，相当于完整地跑了第二次 PP + 推理
阶段 4：实际生成输出	~15s	真正的 token 生成阶段，按 78 tok/s 计算，1500 token 约需 19s，速度完全正常

核心结论： 模型本身速度没有问题（78 tok/s 完全够用），瓶颈在于 Claude Code 的多步 agentic 决策链。每次工具调用都是一次完整的 API 往返（含完整上下文），N 次工具调用 × 每次 30~90s = 总等待时间。代码生成 / 修改类任务 agentic 开销有实际价值，纯问答建议走 LM Studio 直接对话。

04・代码生成质量：JeecgBoot 教师表输出评估

任务：生成教师表 SQL + JeecgBoot 前后端完整代码・耗时 1m 28s

检查项	期望	实际输出	评级
SQL Flyway 路径规范	V{date}__xx.sql	V20260413__01__create_teacher_table.sql，日期自动正确	✅ 优秀
字段完整性	基础业务字段	姓名 / 年龄 / 性别 / 学科 / 手机 / 邮箱 / 地址 / 创建时间 / 操作	✅ 优秀
Vue3 写法规范	script setup + TS	script setup lang="ts" + reactive + ref	✅ 优秀
Ant Design Vue 组件	a-table, a-card	a-table + teacherModal 弹窗组件引用	✅ 优秀
后续操作引导	操作步骤说明	Flyway 执行 / Controller / Service / Mapper 创建步骤清晰	✅ 优秀
方法体完整性	完整 CRUD 逻辑	search/edit/delete 方法仅为骨架，需人工补充	⚠️ 需补充
后端 Java 代码	Controller+Service+Mapper	提示需要继续生成，首次未完整输出	⚠️ 需追问

05・适用场景

✅ 推荐使用

脚手架 / 模板代码生成
CRUD 增删改查（如本次教师表）
注释补全、代码解释
低风险重构辅助
学习 / 个人 / 内部项目开发
代码隐私敏感的企业场景（数据完全不出内网）
多轮对话调试（78 tok/s 体验流畅）

❌ 不推荐使用

核心业务逻辑（需人工严格复核）
高并发 / 安全敏感模块
生产环境直接部署的关键代码
超长推理链任务（MoE 偶有跳步）
纯知识问答（建议绕开 Claude Code agentic 层）

06・综合评分

维度	评分	说明
API 兼容性	100%	Anthropic 格式完全兼容，零额外配置
代码生成质量	80%	结构规范，方法体需人工补充
响应速度体验	60%	Agentic 链叠加导致 1~2 分钟，可接受
数据隐私安全	100%	完全本地，代码不出内网

推荐策略：双模型组合使用

gemma-4-26b-a4b-it-claude-opus-heretic-ara（本地，78 tok/s）
→ 承担 80% 日常开发：CRUD 生成 / 代码补全 / 多轮调试 / 快速问答
→ 优势：数据完全私有，零 API 费用

官方 Claude API（云端，>200 tok/s）
→ 兜底 20% 关键任务：复杂架构设计 / 核心逻辑 / 生产级安全模块
→ 优势：质量更有保障

两者结合，既控制了成本和隐私风险，又不在关键场景掉链子。对于以 JeecgBoot 为核心的企业内部管理系统开发，本地 heretic-ara 完全能够胜任日常的 80% 工作量。

⚠️ 注意：gemma-4-26b-a4b-it-claude-opus-heretic-ara 是社区魔改蒸馏版（非官方 Google 模型），复杂推理链存在跳步风险；Q4_K_XL 量化在超长推理任务上精度略有损失；建议对生成的关键业务代码人工复核后再使用。