零基础玩转本地大模型部署，能搜索、能RAG！深山老林没网都可以用本教程将手把手带你入门，从零开始，手把手教你使用不同的工

本文较长，建议点赞收藏。更多AI大模型应用开发学习视频及资料，在智泊AI。

以前，我们总以为强大的 AI 模型需要昂贵的服务器和稳定的网络连接。但随着技术的发展，一场 AI 民主化的革命正在悄然发生：本地 AI 部署已经成为主流趋势，个人电脑完全可以运行媲美 GPT-4 级别的大模型！

这一变化的主要驱动因素包括：数据隐私保护需求的增强、AI PC 硬件性能的大幅提升、以及 GGUF 等先进量化技术的成熟。现在，你可以在深山老林里，没有网络信号，依然能够与 AI 对话、编程、甚至利用它来分析本地文档；你可以完全掌控自己的数据，不必担心隐私泄露；你更可以根据自己的需求，自由切换和定制各种模型。

随着 OpenAI 发布的开源 GPT-OSS 模型、通义千问 Qwen3 系列的全面升级、以及各种优化工具的成熟，本地部署大模型的门槛已经降到了前所未有的低度。

本教程将手把手带你入门，从零开始，手把手教你使用不同的工具来部署本地模型，并实现网页搜索、RAG（检索增强生成）等高级功能。

本地部署的四大优势

为什么我们要选择在本地部署大模型？

数据隐私与安全：所有数据都在你的电脑上处理，不经过任何云服务。对于处理敏感信息和注重隐私的用户来说，这是最安全的选择。
离线使用：没有网络？没问题！一旦模型部署在本地，你可以在任何地方、任何时间使用它，真正实现"AI 自由"。
成本效益：无需为昂贵的 API 调用付费，一次配置，无限使用。对于需要大量使用 AI 的开发者和研究者来说，长期下来能节省一大笔开销。
高度可定制：你可以根据自己的需求，自由选择、切换甚至微调模型，打造一个完全属于你自己的 AI 助手。

核心概念扫盲

在开始之前，我们先来了解几个基本概念，这将帮助你更好地理解和选择模型。

什么是大模型的满血版、蒸馏版、量化版？

满血版 (FP16/BF16)

这是模型的原始版本，精度最高，效果最好，但对硬件的要求也最高，占用的显存和内存最大。

DeepSeek-R1 是 DeepSeek 的原始大模型，采用混合专家（MoE）架构，拥有 6710 亿个参数。该模型在推理能力上表现出色，特别是在数学推理和编程任务中，已达到与 OpenAI 的 o1 模型相当的水平。需要高性能硬件支持。

蒸馏版 (Distilled)

可以理解为"知识压缩"版。通过一个更大、更强的"教师模型"来训练一个更小、更高效的"学生模型"。学生模型在保留核心能力的同时，体积和计算量都大大减小。

DeepSeek-R1-Distill 是从 DeepSeek-R1 模型蒸馏得到的轻量级版本，参数规模从 1.5B 到 70B 不等。

以下是满血版 DeepSeek-R1、蒸馏版 DeepSeek-R1-32B、OpenAI-o1-1217 模型的对比。

参考 deepseek-ai/DeepSeek-R1

量化版 (Quantized)

这是本地部署的主流选择！主要包括：

• GGUF 格式：由 llama.cpp 项目开发的优化格式，支持 4-bit、8-bit 量化，是目前最受欢迎的本地部署格式
• AWQ (Activation-aware Weight Quantization) ：针对激活值敏感的权重进行量化，性能损失极小
• GPTQ：基于后训练量化技术，在保持性能的同时大幅减少模型大小

这些量化技术让 7B 模型只需要 4-6GB 内存就能运行，是本地部署的最佳选择。

`qwen2:7b` 是什么意思？

我们经常看到类似 qwen2:7b、llama3:8b 这样的模型名称，它们代表了什么？

• qwen2 或 llama3 是模型的名字。
• 冒号后面的 7b 或 8b 代表模型的参数规模（b = billion，十亿）。7b 就是 70 亿参数，8b 就是 80 亿参数。
• 参数规模越大，通常意味着模型的能力越强，但对硬件的要求也越高。 对于个人电脑来说，7B 到 13B 规模的模型是比较理想的选择，在性能和资源消耗之间取得了很好的平衡。

硬件配置要求

跑本地大模型需要什么样的电脑？其实门槛比想象中更低！

内存 (RAM) - 最关键因素

• 7B 模型（推荐新手） ：16GB 内存，量化后仅需 4-6GB
• 13B 模型（进阶用户） ：32GB 内存，量化后需 8-12GB
• 30B+ 模型（专业用户） ：64GB 内存，适合工作站级别配置

GPU 配置（强烈推荐）

• NVIDIA RTX 40 系列：

• RTX 4060 Ti 16GB：性价比很高，可运行 13B 模型
• RTX 4070 Super：12GB 显存，适合 7B-13B 模型
• RTX 4090：24GB 显存，可运行 30B+ 大模型

• Apple Silicon（优秀选择） ：

• M3/M4 Mac（16GB 统一内存）：运行 7B 模型表现良好
• M3/M4 Pro（32GB）：运行 13B 模型体验流畅
• M3/M4 Max（64GB+）：可处理 30B+ 模型

CPU 方案（无 GPU 也能用）

• AMD Ryzen 9 7950X3D + 32GB RAM：可运行量化 7B 模型
• Intel i7-13700K + 32GB RAM：适合轻度使用

性价比推荐

入门级：16GB 内存的笔记本电脑
进阶级：RTX 4060 Ti 16GB + 32GB RAM 台式机
专业级：M4 Max MacBook Pro 或 RTX 4090 工作站

总结：现在只需一台主流笔记本（16GB 内存），就能运行强大的 7B 模型！

Ollama：本地大模型的瑞士军刀

Ollama 是一个开源工具，旨在让你能够在个人电脑上轻松、快速地运行和管理大型语言模型（LLM）。它将复杂的模型配置和运行过程打包成一个简单的命令行工具，让你只需一条命令就能启动并与 Llama 3.1, Mistral, Gemma, Qwen3 等顶级开源模型进行交互。Ollama 的目标是成为本地 AI 开发的基石，让每个人都能轻松利用大模型的力量。

截止目前 Ollama 在 Github 已斩获 150k+ 的 Star，火爆程度可想而知。

核心功能

• 一键启动: 只需一条命令（如 ollama run qwen3），即可下载并运行一个完整的语言模型，无需任何复杂的环境配置。
• 模型库集成: 官方提供了一个庞大的模型库，包含了社区最流行、最前沿的模型，并且对它们进行了优化，方便用户一键获取。
• 跨平台支持: 完美支持 macOS, Windows, 和 Linux，并为 Apple Silicon 和 NVIDIA GPU 提供了深度优化。
• 内置 API 服务器: Ollama 会自动在本机 11434 端口创建一个与 OpenAI API 兼容的 REST API 服务。这意味着任何支持 OpenAI API 的应用或代码库，都可以无缝对接到你本地运行的模型，极大地简化了本地 AI 应用的开发。
• 轻量化与高效: Ollama 本身非常轻量，它负责管理模型的权重、配置和细节，并利用 llama.cpp 等底层技术高效运行模型，充分发挥硬件性能。

使用场景

• 个人 AI 助手: 在本地搭建一个私密的、无需联网的聊天机器人，用于日常问答、写作辅助、编程等。
• AI 应用开发与测试: 开发者可以在本地快速测试和迭代集成了大模型的应用程序，无需支付昂贵的 API 调用费用。
• 数据隐私与安全: 对于需要处理敏感数据的个人或企业，Ollama 提供了完美的解决方案，所有数据都在本地处理，杜绝了隐私泄露的风险。
• 离线环境工作: 在没有网络连接的环境（如飞机上、偏远地区）中，依然可以正常使用强大的 AI 功能。

安装与快速上手

Ollama 的安装过程极其简单，我们以 macOS 为例。

下载安装包

前往 Ollama 官网下载页面，可以看到对 macOS, Linux, Windows 的全面支持。我们选择并下载 macOS 版本，然后双击安装包完成安装。

验证安装

安装完成后，打开终端，输入以下命令：

ollama -v

如果看到类似 ollama version is 0.11.4 的输出，恭喜你，Ollama 已经成功安装！

下载并运行模型

接下来，我们来下载并运行第一个模型。你可以在 Ollama 模型库找到海量模型。我们选择一个对硬件要求不高的轻量级模型 qwen3:1.7b 来体验。在终端输入：

ollama run qwen3:1.7b

Ollama 会自动从官方库下载模型并启动。下载完成后，你就可以直接在终端与它对话了！

学习资源推荐

如果你想更深入地学习大模型，以下是一些非常有价值的学习资源，这些资源将帮助你从不同角度学习大模型，提升你的实践能力。