✨ 开篇碎碎念(新手必看):
很多小伙伴买了 RTX 4060 显卡,只用来打游戏、刷视频,真的太浪费啦!其实你的 4060(8G 显存),除了能流畅运行 3A 大作,还有一个超实用的隐藏技能——本地部署大模型!
像 Qwen3.5-9B 这种级别的大模型(比普通聊天机器人强太多,能写文案、解难题、做推理),4060 跑起来绰绰有余,生成速度能达到 0.2 秒/行,完全不用依赖云端、不用花钱租服务器,断网也能正常使用。
更重要的是,学会本地部署大模型,不仅能解锁“私人AI助手”,还能为以后学习 AI 开发、小程序对接、AI 项目实战打下基础——现在 AI 是风口,提前上手本地部署,相当于掌握了一个超实用的技能,不管是兴趣爱好还是以后加分,都很有意义!
这篇教程专门为纯新手打造,全程“喂到嘴”:不用懂代码、不用会编译,所有指令直接复制粘贴,步骤清晰到每一步该点哪里、该输什么,还补充了新手最关心的 终端命令安装方式(不用手动点击下载,复制命令就能装),10 分钟内就能让你的 4060 显卡“变身”AI 服务器,跑通 Qwen3.5-9B 大模型,赶紧跟着操作起来吧!
一、教程说明
本教程面向纯编程新手,全程图文+复制粘贴指令,无需懂代码/编译,一步到位实现 RTX 4060 显卡加速运行 Qwen3.5-9B 大模型,生成速度 0.2 秒/行,适配小程序/本地调用,新手跟着做,零失败!
重点提示:教程同时提供「手动点击安装」和「终端命令安装」两种方式,新手任选其一即可,命令安装更快捷,推荐优先尝试!
二、环境清单(新手先核对)
| 组件 | 作用 | 新手必装 | 检查指令 | 终端安装命令(推荐) |
|---|---|---|---|---|
| NVIDIA 显卡驱动 | 4060 显卡基础驱动,实现 GPU 加速 | ✅ | nvidia-smi | 见下文 3.1.2 节 |
| CUDA Toolkit | 显卡加速核心,让大模型跑在 GPU 上 | ✅ | nvcc --version | 见下文 3.2.2 节 |
| Git | 可选(本教程不用,新手可跳过) | ❌ | git --version | 无需安装 |
| Python | 可选(本教程不用,新手可跳过) | ❌ | python --version | 无需安装 |
| Ollama | 核心工具(免编译运行模型,新手福音) | ✅ | ollama --version | 见下文 4.1.2 节 |
三、第一步:安装 NVIDIA 驱动 + CUDA Toolkit(新手无脑装,两种方式任选)
3.1 安装 NVIDIA 显卡驱动(适配 4060)
新手不用懂驱动是什么,两种方式任选,全程不用手动找版本,复制命令/点击下一步即可!
方式1:手动点击安装(适合不熟悉终端的新手)
-
打开浏览器,访问 NVIDIA 官方驱动下载页(直接点击,不用搜索): https:/www.nvidia.cn/Download/in…
-
按以下选项选择(新手照抄,不要改):
-
产品类型:GeForce
-
产品系列:RTX 40 Series
-
产品型号:RTX 4060
-
操作系统:Windows 11/10 64位(根据自己的系统选)
-
语言:简体中文
-
点击「搜索」→ 点击「下载」,等待驱动安装包下载完成(约 500MB-1GB)。
-
双击下载的安装包,全程点击「下一步」,无需修改任何设置(默认安装路径即可),安装完成后重启电脑。
方式2:终端命令安装(推荐,更快捷,不用手动下载)
-
按下
Win + X→ 选择「Windows PowerShell(管理员)」,打开管理员终端。 -
复制以下命令,粘贴后回车,自动下载并安装适配 4060 的最新驱动(全程自动,不用管):
# 自动下载并安装 RTX 4060 显卡驱动(管理员模式执行) winget install --id NVIDIA.DisplayDriver --silent --accept-package-agreements --accept-source-agreements -
安装完成后,重启电脑(必须重启,驱动才能生效)。
3.2 安装 CUDA Toolkit 11.8(适配 4060,关键加速组件)
CUDA 是让 GPU 发挥作用的核心,必须装对版本,两种安装方式,新手任选其一!
手动点击安装(适合不熟悉终端的新手)
-
下载地址(新手直接点击,不用找版本): https:/developer.nvidia.com/cuda-11-8-0-download-archive?target_os=Windows&target_arch=x86_64&target_version=11&target_type=exe_local
-
双击下载的
cuda_11.8.0_522.06_windows.exe,弹出安装界面。 -
选择「自定义安装」(新手别选“精简安装”,避免装多余软件)。
-
取消勾选「NVIDIA GeForce Experience」(没用,占内存),其余选项全部默认勾选。
-
点击「下一步」,直到安装完成(约 2-3GB,耐心等待),安装完成后无需重启。
3.3 验证安装(新手必做,确认没装错)
安装完成后,验证一下是否成功,避免后续出问题:
-
按下
Win + R→ 输入cmd→ 按下回车,打开命令提示符(黑色窗口)。 -
复制以下指令,逐行粘贴到窗口,按下回车执行(新手直接复制,不要手敲): `# 检查显卡驱动和 CUDA 版本 nvidia-smi
检查 CUDA 编译器版本
nvcc --version
-
验证结果(新手对照看,出现以下内容就是成功):
-
nvidia-smi输出:显示「NVIDIA GeForce RTX 4060」,且右上角有「CUDA Version: 12.x」(不管12.x具体多少,只要有就正常); -
nvcc --version输出:显示「release 11.8」(版本对了就没问题)。
四、第二步:安装 Ollama(核心工具,免编译,新手最爱,两种方式任选)
之前很多新手卡在“编译模型”上,而 Ollama 完美解决这个问题——免编译、自动适配 GPU,安装完成就能用,全程1分钟搞定!两种安装方式,命令安装更快捷!
4.1 下载 Ollama
方式1:手动点击安装(适合不熟悉终端的新手)
-
官方下载地址(新手直接点击,安全无广告): https:/ollama.com/download/windows
-
点击「Download for Windows」,下载
OllamaSetup.exe(约 100MB)。
方式2:终端命令安装(推荐,一键下载安装,不用手动点击)
-
打开普通 PowerShell 窗口(不用管理员),复制以下命令,粘贴后回车:
# 自动下载并安装 Ollama(全程自动,无需手动操作) winget install --id Ollama.Ollama --silent --accept-package-agreements --accept-source-agreements -
等待 30 秒-1分钟,安装完成后自动启动 Ollama,无需手动操作。
4.2 安装 Ollama(手动安装补充步骤,命令安装可跳过)
-
双击下载的
OllamaSetup.exe,弹出安装界面。 -
全程点击「下一步」,无需修改安装路径(默认装到 C 盘,不占多少内存)。
-
安装完成后,Ollama 会自动启动,任务栏右下角会出现一个 Ollama 的小图标(说明启动成功)。
4.3 验证 Ollama 安装
-
按下
Win + X→ 选择「Windows PowerShell」(不用选“管理员”,普通模式即可)。 -
复制以下指令,粘贴到 PowerShell 窗口,按下回车:
# 检查 Ollama 版本 ollama --version -
验证结果:输出「ollama version x.x.x」(比如
ollama version 0.1.48),代表安装成功;如果提示“找不到指令”,重启电脑再试一次。
五、第三步:下载 Qwen3.5-9B 模型文件(新手专用,不用找资源)
模型文件是大模型的“核心”,我们选「4-bit 量化版」,适配 4060 8G 显存,下载快、占用内存小,新手不用纠结版本,直接下载下面这个!(也可终端命令下载,见下方)
5.1 模型文件下载(两种方式,新手任选)
方式1:手动点击下载(适合不熟悉终端的新手)
-
推荐下载地址(新手直接点击,进入后找对应文件): https:/modelscope.cn/models/qwen/Qwen-7B-Chat-GGUF/files
-
在页面中找到「Qwen3.5-9B-Q4_K_S.gguf」文件(往下滑一点就能看到),点击文件名旁边的「下载」按钮,开始下载(约 5GB,耐心等待)。
方式2:终端命令下载(推荐,自动保存到指定路径,不用手动找文件)
- 打开 PowerShell 窗口,复制以下命令,逐行粘贴执行(替换自己的用户名):
1. 先创建模型存放文件夹(D盘,避免路径出错)
New-Item -Path "D:\bigmodel_models" -ItemType Directory -Force
2. 下载 Qwen3.5-9B-Q4_K_S.gguf 模型(自动保存到 D:\bigmodel_models)
Invoke-WebRequest -Uri "https://modelscope.cn/api/v1/models/qwen/Qwen-7B-Chat-GGUF/files?filename=Qwen3.5-9B-Q4_K_S.gguf" -OutFile "D:\bigmodel_models\Qwen3.5-9B-Q4_K_S.gguf"
3. 验证下载是否成功(查看文件大小)
Get-Item "D:\bigmodel_models\Qwen3.5-9B-Q4_K_S.gguf" | Select-Object Name, Length
- 出现文件大小(约 5GB),代表下载成功,无需手动移动文件。
5.2 模型文件存放(手动下载需做,命令下载可跳过)
路径错了,后续会报错,新手严格按以下步骤存放:
-
打开「此电脑」→ 进入「D 盘」。
-
在 D 盘空白处,右键 → 「新建」→ 「文件夹」,文件夹命名为「bigmodel_models」(不要改名字,不要加空格/中文)。
-
把下载好的
Qwen3.5-9B-Q4_K_S.gguf文件,拖到「D:\bigmodel_models」文件夹里。 -
最终路径核对(新手必做):
D:\bigmodel_models\Qwen3.5-9B-Q4_K_S.gguf(复制这个路径,粘贴到文件资源管理器地址栏,能打开文件就是对的)。
六、第四步:一键运行 Qwen3.5-9B(GPU 加速,新手最期待的一步)
这一步最关键,也是最容易出问题的一步,新手严格按指令复制粘贴,不要改任何字符!全程终端操作,不用手动点击!
6.1 创建模型配置文件(Modelfile)
-
打开「Windows PowerShell」(和之前验证 Ollama 的窗口一样,不用新建)。
-
复制以下指令,逐行粘贴到窗口,每粘贴一行,按下回车(新手注意:把「你的用户名」换成自己电脑的用户名,比如我的是 zc,就改成 C:\Users\zc\Desktop):
进入桌面(路径简单,避免报错)
cd C:\Users\你的用户名\Desktop
示例(我的用户名是 zc,供参考):
cd C:\Users\zc\Desktop
创建 Modelfile 文件,指向模型路径(不用改路径,已经核对过)
echo 'FROM D:\bigmodel_models\Qwen3.5-9B-Q4_K_S.gguf' > Modelfile
- 执行完成后,回到桌面,会看到一个名为「Modelfile」的文件(没有后缀名,正常),代表创建成功。
6.2 关联本地模型到 Ollama
- 继续在同一个 PowerShell 窗口,复制以下指令,粘贴后回车(同样替换「你的用户名」):
创建名为 my-qwen 的模型(名字可以改,但新手建议不改,后续好调用)
ollama create my-qwen -f C:\Users\你的用户名\Desktop\Modelfile
示例(我的用户名是 zc,供参考):ollama create my-qwen -f C:\Users\zc\Desktop\Modelfile
- 成功提示:窗口会输出
success或successfully created model 'my-qwen',代表模型关联成功;如果提示“file does not exist”,回到第九步看解决方案。
6.3 启动模型(GPU 加速生效,见证奇迹)
- 继续在 PowerShell 窗口,复制以下指令,粘贴后回车:
启动 Qwen3.5-9B 模型,进入交互模式
ollama run my-qwen
-
新手验证(必看):
-
等待 10-30 秒(模型加载到 GPU,第一次加载慢一点,后续会变快);
-
出现
>>>提示符,代表模型启动成功; -
输入
你好,请介绍一下自己→ 按下回车,模型会开始生成回答,速度约 0.2 秒/行(这就是 GPU 加速的效果!)。
七、第五步:验证 GPU 加速(新手必看,确认没白装)
很多新手会担心“是不是没用到 GPU,还是用 CPU 跑的”,按以下步骤验证,一眼就能看出来:
-
按下
Ctrl + Shift + Esc→ 打开「任务管理器」。 -
点击「性能」选项卡 → 选择「GPU 0」(后面会显示 NVIDIA RTX 4060)。
-
回到 PowerShell 窗口,输入
请给我写一段 100 字的自我介绍→ 回车,让模型生成文字。 -
同时观察任务管理器的 GPU 状态:
-
CUDA 使用率:从 0% 上升到 30%~80%(说明 GPU 在干活);
-
显存占用:从几百 MB 增加到 4~5G(模型加载到了显卡显存里);
-
生成速度:0.2 秒/行(如果是纯 CPU 跑,会慢 10 倍以上,约 5~10 秒/行)。
只要出现以上情况,就说明 GPU 加速成功,你的 4060 已经成功变身 AI 服务器啦!