本地部署大模型:硬件指南
2026 年 2 月 17 日 20:05 山东AI 辅助工作自学之本地部署大模型,涵盖:模型参数量(结合工作适合选用什么大模型)、内存与显存(Win 与 Mac 的电脑配置)、工作类型与配置匹配
一、模型参数量是什么
“7B”、“72B” 这些数字指的是模型的参数数量 ——7B 是 70 亿参数,72B 是 720 亿参数。每一个参数都是一个数字,模型通过这些数字的组合来 “理解” 语言、进行推理。参数越多,模型能学到的知识越丰富,处理复杂任务的能力越强,但对硬件的要求也越高。
对于律师的日常工作而言,不同复杂度的任务对模型能力的要求差异很大。简单的文本格式整理、短句翻译可能只需要一个 7B 的小模型,而一份涉及多法域的复杂合同审查,则可能需要 32B 甚至 70B 的模型。
Q4 量化:空间换能力
模型训练完成后,每个参数默认以 FP16 格式存储,占 2 字节。7B 模型原始精度下需要约 14GB,32B 需要 64GB,72B 需要 144GB。这对个人用户来说门槛太高。
Q4 量化把每个参数从 16 位压缩到 4 位,每个参数只占 0.5 字节,压缩比例 4:1,可保留原始模型 90%-95% 的能力:
- 7B 模型:约 3.5GB(实际 4–5GB)
- 14B 模型:约 7GB(实际 8–10GB)
- 32B 模型:约 16GB(实际 18–20GB)
- 72B 模型:约 36GB(实际 38–42GB)
实际运行还需要额外空间存上下文缓存(KV Cache),通常占用 2–8GB。所以实际需求要在上述数字基础上再加 5–10GB。
合同条款比对、法律翻译、信息提取这类任务,Q4 量化与全精度模型差别几乎感觉不到。只有需要精细多步推理的场景,全精度模型才明显更好。Ollama 等工具默认提供的都是 Q4 版本。
二、内存 vs 显存
1. Windows:内存和显存是两回事
Windows 设备中,内存和显存物理隔离,不能互相替代,这是理解 Win 与 Mac 差异的关键。
**内存(RAM)**CPU 的工作空间,打开 Word、浏览器、邮件等程序都依赖内存。普通办公配 16–32GB 足够,内存容量大、价格便宜,64GB DDR5 大概 800–1200 元。
**显存(VRAM)**显卡的专用内存,焊在显卡上,大模型推理的核心计算在 GPU 上进行,模型参数必须全部加载到显存里。显存速度快但容量小、价格贵,RTX 4090 的 24GB 显存显卡价格在万元以上。
模型太大装不进显存时,溢出部分会卸载到系统内存由 CPU 处理,推理速度会大幅下降。纯 CPU 推理可将模型加载到系统内存,但速度很慢,只适合不着急的批量处理。
2. Mac 的统一内存
Mac 采用 Apple Silicon 芯片(M3/M4 系列),使用统一内存架构,CPU 和 GPU 共享同一块物理内存,无内存与显存的隔离问题。
一台 64GB 统一内存的 Mac,GPU 可直接访问全部 64GB 内存加载模型,等效于 Windows 平台 64GB 显存的高端显卡。Mac 统一内存带宽低于 NVIDIA 高端显卡,同模型推理速度略慢,但足以满足律师日常工作需求。
五、不同任务需要什么配置
以下推荐基于 Q4 量化,是目前最主流也最具性价比的部署方式。
1. 轻量任务:7B 模型
场景:短段落翻译、文件格式整理、简单法律术语问答Q4 需求:约 4–5GB(模型本身)+ 2–3GB(运行开销)≈ 8GB
表格
| 平台 | 推荐配置 | 参考预算 |
|---|---|---|
| Windows | RTX 4060 8GB 或 RTX 4060 Ti 16GB | 整机 ¥8,000–12,000 |
| Mac | M3/M4 MacBook Air/Pro 16GB | ¥10,000–14,000 |
2. 核心任务:14B 至 32B 模型
场景:合同审查与条款比对、法律备忘录初稿、合同级中英双语翻译、尽职调查清单生成、法律风险评估
- 14B Q4 需求:约 8–10GB + 3–4GB 开销 ≈ 12–14GB
- 32B Q4 需求:约 18–20GB + 4–6GB 开销 ≈ 24GB
表格
| 平台 | 模型 | 推荐配置 | 参考预算 |
|---|---|---|---|
| Windows | 14B | RTX 4070 Ti Super 16GB | 整机 ¥12,000–16,000 |
| Windows | 32B | RTX 4090 24GB | 整机 ¥18,000–25,000 |
| Mac | 14B | M4 Pro MacBook Pro 24GB | ¥16,000–20,000 |
| Mac | 32B | M4 Pro MacBook Pro 48GB | ¥23,000–27,000 |
Windows 用户注意,32B Q4 模型需要约 24GB 显存,刚好是 RTX 4090 的上限,上下文长度建议控制在 8K 以内。经常处理长文档可选择 48GB 显存专业卡或 Mac 设备。
3. 复杂任务:70B 模型
场景:复杂交易结构分析、长文档全文翻译、多法域法律比较研究、高质量法律意见书初稿、监管合规深度分析Q4 需求:约 38–42GB + 5–8GB 开销 ≈ 48GB
表格
| 平台 | 推荐配置 | 参考预算 |
|---|---|---|
| Windows | 双 RTX 4090(48GB 总显存)或单张 A6000 48GB | ¥25,000–50,000 |
| Windows 工作站 | 联想 ThinkStation / 戴尔 Precision + A6000 | ¥40,000–70,000 |
| Mac | M4 Max MacBook Pro 64GB | ¥33,000–40,000 |
| Mac 桌面 | Mac Studio M4 Max 64GB | ¥25,000–32,000 |
| Mac 旗舰 | Mac Studio M4 Ultra 128–192GB | ¥50,000–70,000+ |
此层级 Mac 优势明显,笔记本形态即可运行 70B 量化模型,Windows 方案配置与成本更高。
4. 建议使用云端 API 的任务
涉及最新法规监管判断、超长多文档交叉比对、创造性交易结构设计等任务,建议搭配 Claude、GPT-4 等云端服务。
六、实用建议
- 预算仅够一台机器:优先保证流畅运行 32B Q4 模型,对应配置为 Mac M4 Pro 48GB 或 Windows RTX 4090 工作站。
- 需覆盖 70B 模型:Mac M4 Max 64GB 是最省心的选择,Windows 平台配置与调试复杂度更高。
- 高性价比混合部署:办公室部署本地工作站处理日常保密文件,复杂或需最新法规信息的场景调用云端 API。