🥣 喂到嘴!RTX 4060 本地部署 Qwen3.5-9B 新手教程(GPU加速版)

5 阅读10分钟

✨ 开篇碎碎念(新手必看):

很多小伙伴买了 RTX 4060 显卡,只用来打游戏、刷视频,真的太浪费啦!其实你的 4060(8G 显存),除了能流畅运行 3A 大作,还有一个超实用的隐藏技能——本地部署大模型

像 Qwen3.5-9B 这种级别的大模型(比普通聊天机器人强太多,能写文案、解难题、做推理),4060 跑起来绰绰有余,生成速度能达到 0.2 秒/行,完全不用依赖云端、不用花钱租服务器,断网也能正常使用。

更重要的是,学会本地部署大模型,不仅能解锁“私人AI助手”,还能为以后学习 AI 开发、小程序对接、AI 项目实战打下基础——现在 AI 是风口,提前上手本地部署,相当于掌握了一个超实用的技能,不管是兴趣爱好还是以后加分,都很有意义!

这篇教程专门为纯新手打造,全程“喂到嘴”:不用懂代码、不用会编译,所有指令直接复制粘贴,步骤清晰到每一步该点哪里、该输什么,还补充了新手最关心的 终端命令安装方式(不用手动点击下载,复制命令就能装),10 分钟内就能让你的 4060 显卡“变身”AI 服务器,跑通 Qwen3.5-9B 大模型,赶紧跟着操作起来吧!

一、教程说明

本教程面向纯编程新手,全程图文+复制粘贴指令,无需懂代码/编译,一步到位实现 RTX 4060 显卡加速运行 Qwen3.5-9B 大模型,生成速度 0.2 秒/行,适配小程序/本地调用,新手跟着做,零失败!

重点提示:教程同时提供「手动点击安装」和「终端命令安装」两种方式,新手任选其一即可,命令安装更快捷,推荐优先尝试!

二、环境清单(新手先核对)

组件作用新手必装检查指令终端安装命令(推荐)
NVIDIA 显卡驱动4060 显卡基础驱动,实现 GPU 加速nvidia-smi见下文 3.1.2 节
CUDA Toolkit显卡加速核心,让大模型跑在 GPU 上nvcc --version见下文 3.2.2 节
Git可选(本教程不用,新手可跳过)git --version无需安装
Python可选(本教程不用,新手可跳过)python --version无需安装
Ollama核心工具(免编译运行模型,新手福音)ollama --version见下文 4.1.2 节

三、第一步:安装 NVIDIA 驱动 + CUDA Toolkit(新手无脑装,两种方式任选)

3.1 安装 NVIDIA 显卡驱动(适配 4060)

新手不用懂驱动是什么,两种方式任选,全程不用手动找版本,复制命令/点击下一步即可!

方式1:手动点击安装(适合不熟悉终端的新手)
  1. 打开浏览器,访问 NVIDIA 官方驱动下载页(直接点击,不用搜索): https:/www.nvidia.cn/Download/in…

  2. 按以下选项选择(新手照抄,不要改):

  3. 产品类型:GeForce

  4. 产品系列:RTX 40 Series

  5. 产品型号:RTX 4060

  6. 操作系统:Windows 11/10 64位(根据自己的系统选)

  7. 语言:简体中文

  8. 点击「搜索」→ 点击「下载」,等待驱动安装包下载完成(约 500MB-1GB)。

  9. 双击下载的安装包,全程点击「下一步」,无需修改任何设置(默认安装路径即可),安装完成后重启电脑。

方式2:终端命令安装(推荐,更快捷,不用手动下载)
  1. 按下 Win + X → 选择「Windows PowerShell(管理员)」,打开管理员终端。

  2. 复制以下命令,粘贴后回车,自动下载并安装适配 4060 的最新驱动(全程自动,不用管): # 自动下载并安装 RTX 4060 显卡驱动(管理员模式执行) winget install --id NVIDIA.DisplayDriver --silent --accept-package-agreements --accept-source-agreements

  3. 安装完成后,重启电脑(必须重启,驱动才能生效)。

3.2 安装 CUDA Toolkit 11.8(适配 4060,关键加速组件)

CUDA 是让 GPU 发挥作用的核心,必须装对版本,两种安装方式,新手任选其一!

手动点击安装(适合不熟悉终端的新手)
  1. 下载地址(新手直接点击,不用找版本): https:/developer.nvidia.com/cuda-11-8-0-download-archive?target_os=Windows&target_arch=x86_64&target_version=11&target_type=exe_local

  2. 双击下载的 cuda_11.8.0_522.06_windows.exe,弹出安装界面。

  3. 选择「自定义安装」(新手别选“精简安装”,避免装多余软件)。

  4. 取消勾选「NVIDIA GeForce Experience」(没用,占内存),其余选项全部默认勾选。

  5. 点击「下一步」,直到安装完成(约 2-3GB,耐心等待),安装完成后无需重启。

3.3 验证安装(新手必做,确认没装错)

安装完成后,验证一下是否成功,避免后续出问题:

  1. 按下 Win + R → 输入 cmd → 按下回车,打开命令提示符(黑色窗口)。

  2. 复制以下指令,逐行粘贴到窗口,按下回车执行(新手直接复制,不要手敲): `# 检查显卡驱动和 CUDA 版本 nvidia-smi

检查 CUDA 编译器版本

nvcc --version

  1. 验证结果(新手对照看,出现以下内容就是成功):

  2. nvidia-smi 输出:显示「NVIDIA GeForce RTX 4060」,且右上角有「CUDA Version: 12.x」(不管12.x具体多少,只要有就正常);

  3. nvcc --version 输出:显示「release 11.8」(版本对了就没问题)。

四、第二步:安装 Ollama(核心工具,免编译,新手最爱,两种方式任选)

之前很多新手卡在“编译模型”上,而 Ollama 完美解决这个问题——免编译、自动适配 GPU,安装完成就能用,全程1分钟搞定!两种安装方式,命令安装更快捷!

4.1 下载 Ollama

方式1:手动点击安装(适合不熟悉终端的新手)
  1. 官方下载地址(新手直接点击,安全无广告): https:/ollama.com/download/windows

  2. 点击「Download for Windows」,下载 OllamaSetup.exe(约 100MB)。

方式2:终端命令安装(推荐,一键下载安装,不用手动点击)
  1. 打开普通 PowerShell 窗口(不用管理员),复制以下命令,粘贴后回车: # 自动下载并安装 Ollama(全程自动,无需手动操作) winget install --id Ollama.Ollama --silent --accept-package-agreements --accept-source-agreements

  2. 等待 30 秒-1分钟,安装完成后自动启动 Ollama,无需手动操作。

4.2 安装 Ollama(手动安装补充步骤,命令安装可跳过)

  1. 双击下载的 OllamaSetup.exe,弹出安装界面。

  2. 全程点击「下一步」,无需修改安装路径(默认装到 C 盘,不占多少内存)。

  3. 安装完成后,Ollama 会自动启动,任务栏右下角会出现一个 Ollama 的小图标(说明启动成功)。

4.3 验证 Ollama 安装

  1. 按下 Win + X → 选择「Windows PowerShell」(不用选“管理员”,普通模式即可)。

  2. 复制以下指令,粘贴到 PowerShell 窗口,按下回车: # 检查 Ollama 版本 ollama --version

  3. 验证结果:输出「ollama version x.x.x」(比如 ollama version 0.1.48),代表安装成功;如果提示“找不到指令”,重启电脑再试一次。

五、第三步:下载 Qwen3.5-9B 模型文件(新手专用,不用找资源)

模型文件是大模型的“核心”,我们选「4-bit 量化版」,适配 4060 8G 显存,下载快、占用内存小,新手不用纠结版本,直接下载下面这个!(也可终端命令下载,见下方)

5.1 模型文件下载(两种方式,新手任选)

方式1:手动点击下载(适合不熟悉终端的新手)
  1. 推荐下载地址(新手直接点击,进入后找对应文件): https:/modelscope.cn/models/qwen/Qwen-7B-Chat-GGUF/files

  2. 在页面中找到「Qwen3.5-9B-Q4_K_S.gguf」文件(往下滑一点就能看到),点击文件名旁边的「下载」按钮,开始下载(约 5GB,耐心等待)。

方式2:终端命令下载(推荐,自动保存到指定路径,不用手动找文件)
  1. 打开 PowerShell 窗口,复制以下命令,逐行粘贴执行(替换自己的用户名):

1. 先创建模型存放文件夹(D盘,避免路径出错)

New-Item -Path "D:\bigmodel_models" -ItemType Directory -Force

2. 下载 Qwen3.5-9B-Q4_K_S.gguf 模型(自动保存到 D:\bigmodel_models)

Invoke-WebRequest -Uri "https://modelscope.cn/api/v1/models/qwen/Qwen-7B-Chat-GGUF/files?filename=Qwen3.5-9B-Q4_K_S.gguf" -OutFile "D:\bigmodel_models\Qwen3.5-9B-Q4_K_S.gguf"

3. 验证下载是否成功(查看文件大小)

Get-Item "D:\bigmodel_models\Qwen3.5-9B-Q4_K_S.gguf" | Select-Object Name, Length

  1. 出现文件大小(约 5GB),代表下载成功,无需手动移动文件。

5.2 模型文件存放(手动下载需做,命令下载可跳过)

路径错了,后续会报错,新手严格按以下步骤存放:

  1. 打开「此电脑」→ 进入「D 盘」。

  2. 在 D 盘空白处,右键 → 「新建」→ 「文件夹」,文件夹命名为「bigmodel_models」(不要改名字,不要加空格/中文)。

  3. 把下载好的 Qwen3.5-9B-Q4_K_S.gguf 文件,拖到「D:\bigmodel_models」文件夹里。

  4. 最终路径核对(新手必做):D:\bigmodel_models\Qwen3.5-9B-Q4_K_S.gguf(复制这个路径,粘贴到文件资源管理器地址栏,能打开文件就是对的)。

六、第四步:一键运行 Qwen3.5-9B(GPU 加速,新手最期待的一步)

这一步最关键,也是最容易出问题的一步,新手严格按指令复制粘贴,不要改任何字符!全程终端操作,不用手动点击!

6.1 创建模型配置文件(Modelfile)

  1. 打开「Windows PowerShell」(和之前验证 Ollama 的窗口一样,不用新建)。

  2. 复制以下指令,逐行粘贴到窗口,每粘贴一行,按下回车(新手注意:把「你的用户名」换成自己电脑的用户名,比如我的是 zc,就改成 C:\Users\zc\Desktop):

进入桌面(路径简单,避免报错)

cd C:\Users\你的用户名\Desktop

示例(我的用户名是 zc,供参考):

cd C:\Users\zc\Desktop

创建 Modelfile 文件,指向模型路径(不用改路径,已经核对过)

echo 'FROM D:\bigmodel_models\Qwen3.5-9B-Q4_K_S.gguf' > Modelfile

  1. 执行完成后,回到桌面,会看到一个名为「Modelfile」的文件(没有后缀名,正常),代表创建成功。

6.2 关联本地模型到 Ollama

  1. 继续在同一个 PowerShell 窗口,复制以下指令,粘贴后回车(同样替换「你的用户名」):

创建名为 my-qwen 的模型(名字可以改,但新手建议不改,后续好调用)

ollama create my-qwen -f C:\Users\你的用户名\Desktop\Modelfile

示例(我的用户名是 zc,供参考):ollama create my-qwen -f C:\Users\zc\Desktop\Modelfile

  1. 成功提示:窗口会输出 successsuccessfully created model 'my-qwen',代表模型关联成功;如果提示“file does not exist”,回到第九步看解决方案。

6.3 启动模型(GPU 加速生效,见证奇迹)

  1. 继续在 PowerShell 窗口,复制以下指令,粘贴后回车:

启动 Qwen3.5-9B 模型,进入交互模式

ollama run my-qwen

  1. 新手验证(必看):

  2. 等待 10-30 秒(模型加载到 GPU,第一次加载慢一点,后续会变快);

  3. 出现 >>> 提示符,代表模型启动成功;

  4. 输入 你好,请介绍一下自己 → 按下回车,模型会开始生成回答,速度约 0.2 秒/行(这就是 GPU 加速的效果!)。

七、第五步:验证 GPU 加速(新手必看,确认没白装)

很多新手会担心“是不是没用到 GPU,还是用 CPU 跑的”,按以下步骤验证,一眼就能看出来:

  1. 按下 Ctrl + Shift + Esc → 打开「任务管理器」。

  2. 点击「性能」选项卡 → 选择「GPU 0」(后面会显示 NVIDIA RTX 4060)。

  3. 回到 PowerShell 窗口,输入 请给我写一段 100 字的自我介绍 → 回车,让模型生成文字。

  4. 同时观察任务管理器的 GPU 状态:

  5. CUDA 使用率:从 0% 上升到 30%~80%(说明 GPU 在干活);

  6. 显存占用:从几百 MB 增加到 4~5G(模型加载到了显卡显存里);

  7. 生成速度:0.2 秒/行(如果是纯 CPU 跑,会慢 10 倍以上,约 5~10 秒/行)。

只要出现以上情况,就说明 GPU 加速成功,你的 4060 已经成功变身 AI 服务器啦!