目标:摆脱API调用限制,实现完全本地化的AI工作流
一、为什么选本地部署?
| 痛点 | 本地部署解决方案 |
|---|---|
| Token费用高 | 一次性硬件投入,无限次调用 |
| 数据隐私风险 | 数据不出本机,零泄露 |
| 网络依赖 | 断网可用,响应稳定 |
| 模型黑盒 | 可换芯、可微调、可控 |
二、模型矩阵规划
2.1 四大核心模型
| 角色 | 功能定位 | 推荐模型 |
|---|---|---|
| 思考模型 | 复杂推理、规划、分析 | Gemma 4 |
| 编码模型 | 代码生成、调试、重构 | qwen3.5 |
| 文生图模型 | 配图生成、封面设计 | FLUX.1-dev / SDXL |
| 视频生成模型 | 短视频素材、动态内容 | CogVideoX / HunyuanVideo |
2.2 模型选型思路
- 思考模型 → 优先选推理能力强的
- 编码模型 → 优先选代码专项训练的
- 文生图 → 优先选开源生态好的
- 视频生成 → 目前CogVideoX性价比最高
2.3 后续研究计划
硬件到位后,将系统性地进行以下对比测试:
思考模型横评
- 候选模型:
- Gemma 4 31B (Google) — 2026.04最新开源,多模态原生
- DeepSeek-R1-32B/70B — 强化学习优化
- 测试维度: 推理深度、数学能力、逻辑严谨性、响应速度、多语言支持
- 场景覆盖: 复杂问题拆解、多步骤规划、创意发散、长上下文推理
编码模型横评
- 候选模型:
- Qwen3.5 (阿里巴巴) — 中文代码优化
- Gemma 4 31B (Google) — 多模态原生
- 测试维度: 代码正确率、上下文理解、多语言支持、重构能力、算法复杂度
- 场景覆盖: 算法实现、项目架构、Bug修复、代码审查、跨语言迁移
文生图模型横评
- 候选模型:
- FLUX.1-dev (Black Forest Labs) — 开源SOTA
- Gemma 4 31B多模态 — 原生图文理解生成
- 测试维度: 画面质量、提示词遵循度、生成速度、风格多样性、中文理解
- 场景覆盖: 产品图、插画、概念设计、社交媒体配图、海报设计
视频生成模型横评
- 候选模型:
- CogVideoX (智谱AI) — 开源性价比之选
- HunyuanVideo (腾讯) — 国产高质量
- Open-Sora (潞晨科技) — 完全开源
- Wan 2.1 (阿里巴巴) — 2026.04最新开源视频模型
- 测试维度: 画面连贯性、运动合理性、生成效率、可控性、物理一致性
- 场景覆盖: 短视频素材、动态演示、创意广告、产品展示
三、部署工具对比
3.1 工具选型矩阵
| 工具 | 定位 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|---|
| Ollama | 开箱即用 | 极简安装、模型库丰富、跨平台 | 定制性弱、生产级功能少 | 快速验证、个人使用 |
| LM Studio | 图形化管理 | UI友好、模型下载方便、支持多种格式 | 闭源、高级功能付费 | 非技术用户、可视化操作 |
| oMLX | Apple Silicon 原生 | 原生 macOS MLX 服务器,具备智能缓存功能 | 仅支持Apple Silicon | Mac本地推理首选 |
3.2 我的选择
主力:Ollama + MLX 组合
- Ollama:日常快速测试、轻量任务、跨平台兼容
- MLX:Apple Silicon 原生优化,充分利用 M3 Pro Max 的 GPU 和统一内存架构
四、Agent框架规划
4.1 技术栈:Hermes + OpenClaw
选择这套组合的核心原因:
- Hermes:专为多Agent协作设计,工具调用规范成熟,社区持续迭代
- OpenClaw:与本地环境深度整合,支持自定义工具链扩展
五、我的硬件配置
| 设备 | 配置 | 说明 |
|---|---|---|
| Mac Studio M3 Pro Max | 128GB 统一内存 | 共享内存架构,大模型友好 |
优势分析:
- 128GB统一内存可加载70B+参数模型(Q4量化)
- Apple Silicon 对 Transformer 推理有专门优化
- 静音运行,适合长时间测试
- 无需额外显卡投入
六、参考资源
模型获取
- Ollama 模型库 — 开箱即用的GGUF模型
- HuggingFace — 最全面的开源模型仓库
部署工具
- Ollama 官方文档
- oMLX — 原生 macOS MLX 服务器,具备智能缓存功能
- LM Studio
Agent框架
- Hermes 项目 — 多Agent工具调用规范
- OpenClaw 文档 — 本地AI工作流编排
评测参考
- LMSYS Chatbot Arena — 大模型众测排行榜
- Artificial Analysis — 模型性能与价格对比
七、后续创作计划
硬件到货后将产出系列内容:
- 开箱实测 — M3 Pro Max 128GB 本地部署初体验
- 模型横评系列 — 思考/编码/文生图/视频 四大赛道深度对比
- 量化方案详解 — 不同精度对模型能力的影响实测
- Agent工作流搭建 — Hermes + OpenClaw 完整实战
- 踩坑记录 — Apple Silicon 本地部署的注意事项
硬件状态:Mac Studio M3 Pro Max 128GB 待收货