本地大模型入门指南:从硬件到部署

15 阅读5分钟

想在自己电脑上跑大模型?这篇文章帮你快速搞懂:电脑够不够用、模型怎么选、参数什么意思。


一、你的电脑能跑多大的模型?

核心原则

  • Windows → 看显存 (VRAM),决定 GPU 能跑多大的模型
  • Mac (Apple Silicon) → 看运行内存 (RAM),CPU 和 GPU 共享同一块内存
  • Windows 也能用 CPU + 运行内存跑,但速度慢 5-10 倍

Windows 参考表(GPU 模式,Q4 量化)

显存 (VRAM)推荐模型大小
4 GB3B 以下
6 GB7B
8 GB7B 宽裕,14B 勉强
12 GB14B 流畅
16 GB30B 勉强
24 GB+30B 流畅,70B 量化可跑

Windows 也支持 CPU 模式(用运行内存跑),32GB 内存大约可跑 13B-14B,但速度较慢。

软件会自动选择 GPU 或 CPU,也支持混合模式(一部分层放 GPU,其余放 CPU)。

Mac (Apple Silicon) 参考表(Q4 量化)

统一内存 (RAM)推荐模型大小
8 GB3B
16 GB7B
24 GB14B
32 GB30B
48 GB70B 量化版
64 GB+70B 流畅

二、"B" 是什么?不同大小有什么区别?

B = Billion(十亿)参数,参数越多模型越"聪明",也越吃硬件。

模型大小简单类比实际能力
1.5B - 3B口袋词典简单对话,经常出错
7B新华字典日常问答、写短文,偶尔出错
13B - 14B百科全书写代码、逻辑分析,比较靠谱
30B - 70B图书馆接近在线大模型水平

三、模型格式怎么选?

常见格式一览

格式运行引擎支持硬件说明
GGUFllama.cppCPU + 所有 GPU最通用,推荐
GPTQExLlama / Transformers仅 NVIDIA GPU老牌格式,逐渐被替代
EXL2ExLlamaV2仅 NVIDIA GPU纯 GPU 极致速度
AWQvLLM / Transformers仅 NVIDIA GPU比 GPTQ 更新更好
MLXMLX仅 Apple SiliconMac 专用

新手直接选 GGUF 格式就够了,兼容性最好,CPU 和 GPU 都能跑。

GGUF 量化命名规则

Q4_K_M 为例:

Q  4  _  K  _  M
│  │     │     └── 大小:S(小)/M(中)/L(大)
│  │     └──────── 方法:K = K-Quant 新算法(更智能)
│  └────────────── 位数:数字越大越精确,也越大
└───────────────── 代表 Quantized(量化)

量化等级速查表

量化类型7B 模型大小质量推荐度
Q3_K_M~3.3 GB一般内存紧张时用
Q4_K_M~4.3 GB性价比之王,首选
Q5_K_M~5.0 GB很好内存够就用
Q6_K~5.5 GB非常好追求质量
Q8_0~7.0 GB接近原始吃内存

数字越大 = 越精确、文件越大、越吃内存。日常用 Q4_K_M 最平衡。


四、运行引擎怎么选?(Windows)

LM Studio 提供多种引擎,根据你的显卡选:

引擎用什么硬件适合谁
CUDA / CUDA 12NVIDIA 显卡有 N 卡首选,速度最快
VulkanNVIDIA / AMD / Intel ArcAMD 显卡用户选这个
CPU纯 CPU + 内存没有好显卡,或跑超大模型

有 NVIDIA 显卡 → 选 CUDA 12。没有 N 卡 → 选 Vulkan(需 AMD 或 Intel Arc)。都没有 → 选 CPU

注意:老款 Intel 核显(如 UHD 630)不适合跑模型,Vulkan 加速比纯 CPU 还慢。


五、模型加载参数说明

在 LM Studio 加载模型时会看到这些设置:

参数含义建议
上下文长度模型能"记住"多少内容(token)先设 4096-8192,够用且省内存
GPU 卸载层数多少层放到 GPU 上(如 30/64)拉满=全 GPU,0=全 CPU,中间=混合
CPU Thread Pool SizeCPU 线程数设为 CPU 核心数或稍少(如 6-8)
评估批处理大小一次处理多少 token默认 256 即可
保持模型在内存中防止系统换出模型建议开启
尝试 mmap()内存映射加载,启动更快保持开启
闪电注意力实验性加速功能可能不稳定,新手先关

GPU 卸载层数是最关键的参数。显存不够装下整个模型时,降低这个值让一部分走 CPU。


六、推荐部署工具

LM Studio — 图形界面,适合新手

  • 官网:lmstudio.ai
  • 支持 Windows / Mac / Linux
  • 内置模型搜索和下载,点击即用
  • 可视化调整 GPU 卸载、上下文长度等参数
  • 支持作为本地 API 服务器,兼容 OpenAI 格式接口

适合:想要开箱即用、可视化操作的用户

Ollama — 命令行工具,适合开发者

  • 官网:ollama.com
  • 支持 Windows / Mac / Linux
  • 一行命令即可运行模型:ollama run qwen2.5:7b
  • 自动检测硬件、自动选择 GPU/CPU
  • 内置 API 服务器,方便程序调用

适合:喜欢命令行、需要集成到项目中的开发者

怎么选?

LM StudioOllama
上手难度简单(图形界面)需要会用命令行
参数调节滑块拖拽,直观改配置文件
API 服务支持支持
适合谁新手、体验党开发者、自动化

两个都免费,先试 LM Studio 入门,熟悉后用 Ollama 做开发集成。


七、快速上手流程

  1. 查看硬件 — 打开任务管理器 → 性能,看显存大小和内存大小
  2. 确定模型大小 — 对照上面的表,选择适合的 B 数
  3. 下载工具 — 安装 LM Studio 或 Ollama
  4. 下载模型 — 搜索模型名,选 GGUF 格式,量化选 Q4_K_M
  5. 加载运行 — 选 CUDA 12 引擎(N 卡),调整 GPU 卸载层数,开始对话