想在自己电脑上跑大模型?这篇文章帮你快速搞懂:电脑够不够用、模型怎么选、参数什么意思。
一、你的电脑能跑多大的模型?
核心原则
- Windows → 看显存 (VRAM),决定 GPU 能跑多大的模型
- Mac (Apple Silicon) → 看运行内存 (RAM),CPU 和 GPU 共享同一块内存
- Windows 也能用 CPU + 运行内存跑,但速度慢 5-10 倍
Windows 参考表(GPU 模式,Q4 量化)
| 显存 (VRAM) | 推荐模型大小 |
|---|---|
| 4 GB | 3B 以下 |
| 6 GB | 7B |
| 8 GB | 7B 宽裕,14B 勉强 |
| 12 GB | 14B 流畅 |
| 16 GB | 30B 勉强 |
| 24 GB+ | 30B 流畅,70B 量化可跑 |
Windows 也支持 CPU 模式(用运行内存跑),32GB 内存大约可跑 13B-14B,但速度较慢。
软件会自动选择 GPU 或 CPU,也支持混合模式(一部分层放 GPU,其余放 CPU)。
Mac (Apple Silicon) 参考表(Q4 量化)
| 统一内存 (RAM) | 推荐模型大小 |
|---|---|
| 8 GB | 3B |
| 16 GB | 7B |
| 24 GB | 14B |
| 32 GB | 30B |
| 48 GB | 70B 量化版 |
| 64 GB+ | 70B 流畅 |
二、"B" 是什么?不同大小有什么区别?
B = Billion(十亿)参数,参数越多模型越"聪明",也越吃硬件。
| 模型大小 | 简单类比 | 实际能力 |
|---|---|---|
| 1.5B - 3B | 口袋词典 | 简单对话,经常出错 |
| 7B | 新华字典 | 日常问答、写短文,偶尔出错 |
| 13B - 14B | 百科全书 | 写代码、逻辑分析,比较靠谱 |
| 30B - 70B | 图书馆 | 接近在线大模型水平 |
三、模型格式怎么选?
常见格式一览
| 格式 | 运行引擎 | 支持硬件 | 说明 |
|---|---|---|---|
| GGUF | llama.cpp | CPU + 所有 GPU | 最通用,推荐 |
| GPTQ | ExLlama / Transformers | 仅 NVIDIA GPU | 老牌格式,逐渐被替代 |
| EXL2 | ExLlamaV2 | 仅 NVIDIA GPU | 纯 GPU 极致速度 |
| AWQ | vLLM / Transformers | 仅 NVIDIA GPU | 比 GPTQ 更新更好 |
| MLX | MLX | 仅 Apple Silicon | Mac 专用 |
新手直接选 GGUF 格式就够了,兼容性最好,CPU 和 GPU 都能跑。
GGUF 量化命名规则
以 Q4_K_M 为例:
Q 4 _ K _ M
│ │ │ └── 大小:S(小)/M(中)/L(大)
│ │ └──────── 方法:K = K-Quant 新算法(更智能)
│ └────────────── 位数:数字越大越精确,也越大
└───────────────── 代表 Quantized(量化)
量化等级速查表
| 量化类型 | 7B 模型大小 | 质量 | 推荐度 |
|---|---|---|---|
| Q3_K_M | ~3.3 GB | 一般 | 内存紧张时用 |
| Q4_K_M | ~4.3 GB | 好 | 性价比之王,首选 |
| Q5_K_M | ~5.0 GB | 很好 | 内存够就用 |
| Q6_K | ~5.5 GB | 非常好 | 追求质量 |
| Q8_0 | ~7.0 GB | 接近原始 | 吃内存 |
数字越大 = 越精确、文件越大、越吃内存。日常用 Q4_K_M 最平衡。
四、运行引擎怎么选?(Windows)
LM Studio 提供多种引擎,根据你的显卡选:
| 引擎 | 用什么硬件 | 适合谁 |
|---|---|---|
| CUDA / CUDA 12 | NVIDIA 显卡 | 有 N 卡首选,速度最快 |
| Vulkan | NVIDIA / AMD / Intel Arc | AMD 显卡用户选这个 |
| CPU | 纯 CPU + 内存 | 没有好显卡,或跑超大模型 |
有 NVIDIA 显卡 → 选 CUDA 12。没有 N 卡 → 选 Vulkan(需 AMD 或 Intel Arc)。都没有 → 选 CPU。
注意:老款 Intel 核显(如 UHD 630)不适合跑模型,Vulkan 加速比纯 CPU 还慢。
五、模型加载参数说明
在 LM Studio 加载模型时会看到这些设置:
| 参数 | 含义 | 建议 |
|---|---|---|
| 上下文长度 | 模型能"记住"多少内容(token) | 先设 4096-8192,够用且省内存 |
| GPU 卸载层数 | 多少层放到 GPU 上(如 30/64) | 拉满=全 GPU,0=全 CPU,中间=混合 |
| CPU Thread Pool Size | CPU 线程数 | 设为 CPU 核心数或稍少(如 6-8) |
| 评估批处理大小 | 一次处理多少 token | 默认 256 即可 |
| 保持模型在内存中 | 防止系统换出模型 | 建议开启 |
| 尝试 mmap() | 内存映射加载,启动更快 | 保持开启 |
| 闪电注意力 | 实验性加速功能 | 可能不稳定,新手先关 |
GPU 卸载层数是最关键的参数。显存不够装下整个模型时,降低这个值让一部分走 CPU。
六、推荐部署工具
LM Studio — 图形界面,适合新手
- 官网:lmstudio.ai
- 支持 Windows / Mac / Linux
- 内置模型搜索和下载,点击即用
- 可视化调整 GPU 卸载、上下文长度等参数
- 支持作为本地 API 服务器,兼容 OpenAI 格式接口
适合:想要开箱即用、可视化操作的用户
Ollama — 命令行工具,适合开发者
- 官网:ollama.com
- 支持 Windows / Mac / Linux
- 一行命令即可运行模型:
ollama run qwen2.5:7b - 自动检测硬件、自动选择 GPU/CPU
- 内置 API 服务器,方便程序调用
适合:喜欢命令行、需要集成到项目中的开发者
怎么选?
| LM Studio | Ollama | |
|---|---|---|
| 上手难度 | 简单(图形界面) | 需要会用命令行 |
| 参数调节 | 滑块拖拽,直观 | 改配置文件 |
| API 服务 | 支持 | 支持 |
| 适合谁 | 新手、体验党 | 开发者、自动化 |
两个都免费,先试 LM Studio 入门,熟悉后用 Ollama 做开发集成。
七、快速上手流程
- 查看硬件 — 打开任务管理器 → 性能,看显存大小和内存大小
- 确定模型大小 — 对照上面的表,选择适合的 B 数
- 下载工具 — 安装 LM Studio 或 Ollama
- 下载模型 — 搜索模型名,选 GGUF 格式,量化选 Q4_K_M
- 加载运行 — 选 CUDA 12 引擎(N 卡),调整 GPU 卸载层数,开始对话