Mac本地搭建AI大模型:6款推理工具对比

0 阅读5分钟

JEECG低代码 AI编程研究 | 硬件基准:Mac Studio · Apple M4 Max · 128GB 统一内存 · 40核GPU


为什么要选对工具?

同样的模型,不同的推理引擎,性能差距可以达到数百倍。Apple Silicon 的统一内存架构天然适合大模型推理,128GB 的 M4 Max 可以轻松运行 70B 甚至 122B 参数的模型——但工具选错了,这些硬件优势会白白浪费。

本文对目前 macOS 上最主流的五款工具按性能从高到低排序,并给出针对 M4 Max 128GB 的具体推荐。


维度LM StudiovMLXoMLXOllamavLLM
定位桌面 GUIMac 全功能推理引擎Mac Agent 专属优化模型管理+服务生产级高并发
平台全平台Apple SiliconApple Silicon (macOS 15+)全平台主要 NVIDIA
底层llama.cppApple MLXApple MLXllama.cpp自研
GUI✅ 完整✅ 原生 macOS✅ Menu Bar + DashboardCLI 为主
KV Cache单槽内存5 层缓存栈SSD 持久化分页缓存❌ 无PagedAttention
最大并发12568×(4.14× 加速)有限极高
TTFT(长 context)慢(90s+)<5s(缓存命中)
OpenAI API
Anthropic API
Agentic 工具✅ 20+
视觉模型(VL)部分✅ + 完整缓存部分部分
开源部分✅ Apache 2.0✅ Apache 2.0✅ MIT✅ Apache 2.0

性能排名

🥇 第一名:vMLX

定位:最强原始吞吐,功能最完整的 MLX 引擎

唯一实现 5 层缓存栈的 MLX 推理引擎:Prefix Cache + Paged KV Cache + KV 量化(q4/q8)+ Continuous Batching + 磁盘持久化缓存。

在 100K token 上下文下,冷启动 Prompt 处理速度达 154,121 tok/s,是 LM Studio 的 224 倍。支持最多 256 路并发,同时提供 OpenAI 和 Anthropic 双兼容 API,内置 20+ Agentic 工具(文件读写、Shell、Git、网络搜索等)。

指标数值
Prompt TPS(100K context)154,121 tok/s
最大并发256 路
KV Cache5 层缓存栈
API 兼容OpenAI + Anthropic

适合: 日常对话、本地 API 服务、需要 Agentic 能力的场景


🥈 第二名:oMLX

定位:Agent 场景 TTFT 最低,SSD 冷热分层缓存

专为 Coding Agent(Claude Code、Cursor、OpenClaw)设计的 macOS 原生 MLX 服务器。核心创新是 SSD 持久化分页 KV 缓存——热块留内存、冷块存 SSD,LRU 策略永不驱逐,跨会话、跨重启均可恢复缓存。

第二轮对话 TTFT 从 30–90 秒降至 5 秒以内。Qwen3-Coder 8bit 在 8× 并发下实测 243 tok/s,4.14× 加速。

指标数值
TTFT(缓存命中)< 5 秒
8× 并发加速4.14×
缓存策略SSD 冷热分层,永不驱逐
开源协议Apache 2.0

适合: Claude Code / Cursor 后端,长上下文 Coding Agent


🥉 第三名:Ollama

定位:生态最佳,最容易上手

最流行的本地 LLM 管理工具,ollama run qwen3 一行搞定。生态丰富,Open WebUI、Continue 等前端可直接对接。

底层基于 llama.cpp,性能不及 MLX 原生方案,且无 KV Cache,长上下文场景明显吃亏。但对非技术用户来说,易用性无可替代。

适合: 快速搭本地 API、团队共享、新手入门


第四名:LM Studio

定位:图形界面最完整,进阶用户已有更好选择

最适合非技术用户,零命令行操作,内置 Chat UI 和模型商店。底层依赖 llama.cpp,MLX 引擎支持有限——仅单槽 KV Cache、最多 1 路并发。

100K context 冷启动仅 686 tok/s,是 vMLX 的 1/224。适合入门体验,进阶用户建议迁移至 vMLX。

适合: 第一次体验本地大模型的普通用户


第五名:vLLM

定位:macOS 不适用,排名垫底

生产级高并发推理引擎,PagedAttention 技术在 NVIDIA GPU 上性能无可匹敌。但在 macOS / Apple Silicon 平台上支持非常有限,不推荐在 Mac 上使用。

如果你同时有 NVIDIA Linux 服务器,vLLM 是那台机器的不二之选。

适合: NVIDIA GPU Linux 服务器,与本机无关


M4 Max 128GB 推荐模型

128GB 统一内存是本地推理的甜点配置,以下是按规模分类的推荐:

模型参数量量化内存占用预估速度适用场景
Qwen3.5-7B7B4bit~5 GB~90 tok/s快速对话/测试
Qwen3.5-30B30B4bit~20 GB~50 tok/s日常对话
Qwen3.5-72B72B4bit~46 GB~22 tok/s编码主力
Qwen3.5-122B-A10B ⭐122B MoE4bit~65 GB~14 tok/s旗舰首选
DeepSeek-V3671B MoE4bit~120 GB~6 tok/s极限测试

首推 Qwen3.5-122B-A10B 4bit:只占用 65GB 内存,推理质量接近 GPT-4 Turbo,还留出 63GB 给 KV Cache,是 M4 Max 128GB 的最优平衡点。


针对你的配置,最终怎么选?

建议同时安装 vMLX 和 oMLX,两者端口不冲突,各司其职:

使用场景推荐工具推荐模型
日常对话 / 本地 AI 助手vMLXQwen3.5-122B 4bit
Claude Code / Cursor 后端oMLXQwen3.5-72B 4bit
零门槛体验 / 新手入门LM Studio任意,图形界面下载
快速搭 API / 团队共享OllamaQwen3.5-32B 4bit

vMLX 靠 5 层缓存栈和超高吞吐量称王,oMLX 靠 SSD 冷热分层缓存在 Agent 场景实现极低延迟。对于 M4 Max 128GB 用户来说,两者都装是成本最低、收益最高的方案。