本地大模型入门指南：从硬件到部署一、你的电脑能跑多大的模型？核心原则 Windows → 看显存 (VRAM)，决定

想在自己电脑上跑大模型？这篇文章帮你快速搞懂：电脑够不够用、模型怎么选、参数什么意思。

一、你的电脑能跑多大的模型？

核心原则

Windows → 看显存 (VRAM)，决定 GPU 能跑多大的模型
Mac (Apple Silicon) → 看运行内存 (RAM)，CPU 和 GPU 共享同一块内存
Windows 也能用 CPU + 运行内存跑，但速度慢 5-10 倍

Windows 参考表（GPU 模式，Q4 量化）

显存 (VRAM)	推荐模型大小
4 GB	3B 以下
6 GB	7B
8 GB	7B 宽裕，14B 勉强
12 GB	14B 流畅
16 GB	30B 勉强
24 GB+	30B 流畅，70B 量化可跑

Windows 也支持 CPU 模式（用运行内存跑），32GB 内存大约可跑 13B-14B，但速度较慢。

软件会自动选择 GPU 或 CPU，也支持混合模式（一部分层放 GPU，其余放 CPU）。

Mac (Apple Silicon) 参考表（Q4 量化）

统一内存 (RAM)	推荐模型大小
8 GB	3B
16 GB	7B
24 GB	14B
32 GB	30B
48 GB	70B 量化版
64 GB+	70B 流畅

二、"B" 是什么？不同大小有什么区别？

B = Billion（十亿）参数，参数越多模型越"聪明"，也越吃硬件。

模型大小	简单类比	实际能力
1.5B - 3B	口袋词典	简单对话，经常出错
7B	新华字典	日常问答、写短文，偶尔出错
13B - 14B	百科全书	写代码、逻辑分析，比较靠谱
30B - 70B	图书馆	接近在线大模型水平

三、模型格式怎么选？

常见格式一览

格式	运行引擎	支持硬件	说明
GGUF	llama.cpp	CPU + 所有 GPU	最通用，推荐
GPTQ	ExLlama / Transformers	仅 NVIDIA GPU	老牌格式，逐渐被替代
EXL2	ExLlamaV2	仅 NVIDIA GPU	纯 GPU 极致速度
AWQ	vLLM / Transformers	仅 NVIDIA GPU	比 GPTQ 更新更好
MLX	MLX	仅 Apple Silicon	Mac 专用

新手直接选 GGUF 格式就够了，兼容性最好，CPU 和 GPU 都能跑。

GGUF 量化命名规则

以 Q4_K_M 为例：

Q  4  _  K  _  M
│  │     │     └── 大小：S(小)/M(中)/L(大)
│  │     └──────── 方法：K = K-Quant 新算法（更智能）
│  └────────────── 位数：数字越大越精确，也越大
└───────────────── 代表 Quantized（量化）

量化等级速查表

量化类型	7B 模型大小	质量	推荐度
Q3_K_M	~3.3 GB	一般	内存紧张时用
Q4_K_M	~4.3 GB	好	性价比之王，首选
Q5_K_M	~5.0 GB	很好	内存够就用
Q6_K	~5.5 GB	非常好	追求质量
Q8_0	~7.0 GB	接近原始	吃内存

数字越大 = 越精确、文件越大、越吃内存。日常用 Q4_K_M 最平衡。

四、运行引擎怎么选？（Windows）

LM Studio 提供多种引擎，根据你的显卡选：

引擎	用什么硬件	适合谁
CUDA / CUDA 12	NVIDIA 显卡	有 N 卡首选，速度最快
Vulkan	NVIDIA / AMD / Intel Arc	AMD 显卡用户选这个
CPU	纯 CPU + 内存	没有好显卡，或跑超大模型

有 NVIDIA 显卡 → 选 CUDA 12。没有 N 卡 → 选 Vulkan（需 AMD 或 Intel Arc）。都没有 → 选 CPU。

注意：老款 Intel 核显（如 UHD 630）不适合跑模型，Vulkan 加速比纯 CPU 还慢。

五、模型加载参数说明

在 LM Studio 加载模型时会看到这些设置：

参数	含义	建议
上下文长度	模型能"记住"多少内容（token）	先设 4096-8192，够用且省内存
GPU 卸载层数	多少层放到 GPU 上（如 30/64）	拉满=全 GPU，0=全 CPU，中间=混合
CPU Thread Pool Size	CPU 线程数	设为 CPU 核心数或稍少（如 6-8）
评估批处理大小	一次处理多少 token	默认 256 即可
保持模型在内存中	防止系统换出模型	建议开启
尝试 mmap()	内存映射加载，启动更快	保持开启
闪电注意力	实验性加速功能	可能不稳定，新手先关

GPU 卸载层数是最关键的参数。显存不够装下整个模型时，降低这个值让一部分走 CPU。

六、推荐部署工具

LM Studio — 图形界面，适合新手

官网：lmstudio.ai
支持 Windows / Mac / Linux
内置模型搜索和下载，点击即用
可视化调整 GPU 卸载、上下文长度等参数
支持作为本地 API 服务器，兼容 OpenAI 格式接口

适合：想要开箱即用、可视化操作的用户

Ollama — 命令行工具，适合开发者

官网：ollama.com
支持 Windows / Mac / Linux
一行命令即可运行模型：ollama run qwen2.5:7b
自动检测硬件、自动选择 GPU/CPU
内置 API 服务器，方便程序调用

适合：喜欢命令行、需要集成到项目中的开发者

怎么选？

	LM Studio	Ollama
上手难度	简单（图形界面）	需要会用命令行
参数调节	滑块拖拽，直观	改配置文件
API 服务	支持	支持
适合谁	新手、体验党	开发者、自动化

两个都免费，先试 LM Studio 入门，熟悉后用 Ollama 做开发集成。

七、快速上手流程

查看硬件 — 打开任务管理器 → 性能，看显存大小和内存大小
确定模型大小 — 对照上面的表，选择适合的 B 数
下载工具 — 安装 LM Studio 或 Ollama
下载模型 — 搜索模型名，选 GGUF 格式，量化选 Q4_K_M
加载运行 — 选 CUDA 12 引擎（N 卡），调整 GPU 卸载层数，开始对话