个人电脑玩AI-06让5060 Ti给你打工——Qwen3.6-35B-A3B + LM Studio + openWebUI

0 阅读11分钟

by 雪隐_上班了 from juejin.cn/user/143341…
欢迎分享与聚合,全文转载就不必了,尊重版权,圈子就这么大,若急用可联系授权。


前言:我的 5060Ti 越来越全能了,它现在是我同事

前两回咱们聊了啥?
第一回:5060Ti 学会了画画(FLUX.2 Klein),从此产品经理不再追着我改图。
第二回:5060Ti 学会了学人说话(Qwen3-TTS),老板的声音被我克隆后,我说啥就是啥。

这回更狠——我让它学会了 自己跟自己聊天

没错,本地大语言模型(LLM)部署,让我的 5060Ti 16G 变成了一个可以随时对话的 AI 同事。不用联网、不用 API 花钱、不用担心敏感数据传到云端,想聊多久聊多久,它还永远不会嫌你烦。

这次我用的是 LM Studio + Qwen3.6-35B-A3B,一个 MoE(混合专家)架构的大家伙——总参数量 350 亿,但激活的只有 30 亿,相当于一个大力士平时只出三分力,省电又高效。

而我的 5060Ti 16G,刚好够喂饱它(量化后 Q4_K_M 版本约 16GB,卡在满显存的边缘,刺激吧?)。


项目概览(看看我的“赛博同事”的配置)

硬件环境(就是我的宝贝电脑)

配置我的实际情况吐槽
显卡RTX 5060 Ti 16GB买它的时候肉疼,现在越用越觉得值
内存32GB(DDR5,咬牙上的)AI 吃内存像饿了三天的人吃自助餐,32GB 勉强够
硬盘还剩 50GB 空余为了给模型腾地方,删了一堆学习资料(别问是哪种)
系统Windows 11稳定得像我每天准点摸鱼的习惯

软件环境(全是免费工具,良心)

软件说明我的评价
LM Studio本地大模型部署神器,开箱即用比 Python 环境好伺候一万倍,双击就能跑
显卡驱动NVIDIA Driver 535+装好就行,不用折腾 CUDA,LM Studio 全包了
CUDALM Studio 内置它自己偷偷装好了,你甚至不用知道它在哪

关于模型:Qwen3.6-35B-A3B,它是个“节省大师”

这是阿里通义实验室开源的 MoE(混合专家)架构 模型,翻译成人话就是:

它不是让全公司 350 亿个员工一起干活,而是根据任务类型,只叫醒最擅长的那 30 亿个专家,其他人继续睡觉。
——所以叫“稀疏激活”,省电、省显存、还快。

参数数值翻译
总参数量350 亿公司总员工数
激活参数30 亿每次只叫醒这些人干活
架构稀疏混合专家 (MoE)术业有专攻,各管一摊
上下文长度262K token相当于一口气看完《三体》三部曲还能记住细节

MoE 架构有多香?
350 亿的能力,30 亿的计算量,我的 5060Ti 16G 跑起来风扇都懒得加速。


量化版本怎么选?看你的显存,别贪心

模型文件分不同“量化等级”,就像压缩图片:压缩越多,质量略降,但体积小很多。

量化级别显存需求质量适合谁
Q4_K_M~16GB高(基本感觉不到损失)我的 5060Ti 用户,刚好卡在满显存,用起来很刺激
Q5_K_S~18GB很高显存 20GB+ 的大户人家
Q8_0~22GB接近无损土豪,请随意

我选的是 Q4_K_M——16GB 显存几乎吃满,但推理速度依然流畅。
每次看到 LM Studio 底部显示 VRAM: 15.8GB / 16.0GB,我都觉得像在走钢丝,但就是不掉下去,爽。


LM Studio 是什么?一句话:显卡的“傻瓜相机”

为什么非要用它?

特性对我这种懒人的意义
🎯 开箱即用下载 → 双击安装 → 打开 → 选模型 → 开聊,全程不用打开命令行
🔧 简单到过分界面就几个按钮,比 Word 还简单
🔥 GPU 加速自动识别我的 5060Ti,一键开启,不需要设置 CUDA_VISIBLE_DEVICES
🌐 本地 API提供和 OpenAI 一模一样的 API,我的代码无缝切换
📁 内置模型下载器在软件里搜索模型,点一下就能下载,不用去网页翻

安装步骤(真的只需三步,骗你是小狗)

第一步:下载 LM Studio

访问官网:lmstudio.ai/
点击下载 Windows 版本,安装包约 200MB,比你下个游戏补丁还快。

安装过程就是一路 “下一步 → 下一步 → 我同意 → 完成”,没有任何坑。

第二步:下载模型(两个方法,推荐第二个)

方法一:LM Studio 内置下载器(适合网络好的)

  1. 打开 LM Studio,点击左侧「Search」图标
  2. 搜索 Qwen3.6-35B
  3. 在结果里找到 Q4_K_M 版本(记得看文件大小,约 16GB)
  4. 点击 Download,然后去泡杯咖啡,等它下完

方法二:ModelScope 下载(适合国内,速度起飞)
我强烈推荐这个,因为 HuggingFace 在国内慢得像蜗牛爬:

pip install modelscope
modelscope download --model LLM-Research/Qwen3.6-35B-A3B-GGUF --local_dir ./models

下载完大概 16GB,花了我一顿外卖的时间(约 20 分钟)。

然后把下载的 .gguf 文件拖到 LM Studio 的模型文件夹里(或者直接拖进软件窗口,它也认)。

第三步:加载模型,开始对话

  1. 在 LM Studio 中间区域点击加载,或直接把 .gguf 文件拖进去
  2. 等待约 1-2 分钟(它在把模型装进显存)
  3. 看到底部显示 Qwen3.6-35B-A3B-Q4_K_M - 15.8GB/16.0GB,说明成功了
  4. 在下方输入框打字,按回车,它就开始回答了

快捷键(记住两个就够了):

  • Ctrl + Enter:发送消息
  • Ctrl + Shift + Delete:清空对话(假装什么都没发生过)

本地 API 服务:让我的代码也能调戏它

LM Studio 自带一个兼容 OpenAI 的 API 服务器,这意味着我可以用任何调用 OpenAI 的代码,无缝切换成本地模型。

开启 API 服务器(一键操作)

  1. 点击左侧「Server」图标(像个插头)
  2. 点击「Start Server」按钮
  3. 看到地址:http://localhost:1234/v1

就这?就这。不需要配置环境变量,不需要 uvicorn,一键搞定。

Python 调用(和调用 GPT 一毛一样)

from openai import OpenAI

# 把 base_url 改成 LM Studio 的地址,其他完全不变
client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="lm-studio"  # 随便填,它不验证
)

response = client.chat.completions.create(
    model="Qwen3.6-35B-A3B",  # 模型名字随便写,它会自动用当前加载的
    messages=[
        {"role": "system", "content": "你是一个有帮助的助手"},
        {"role": "user", "content": "用一句话解释什么是 MoE 架构"}
    ]
)

print(response.choices[0].message.content)
# 输出:MoE架构就像一个专家团队,每次只让最擅长该任务的小组干活,省时省力。

curl 调用(给不喜欢 Python 的人)

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen3.6-35B-A3B",
    "messages": [{"role": "user", "content": "你好,你是谁?"}]
  }'

就这样,我的本地 AI 同事正式上岗了。


Docker 部署 Open WebUI(给模型穿件漂亮衣服)

LM Studio 自带的聊天界面比较简陋,像个毛坯房。
如果你想要一个更高级的 Web 界面,可以安装 Open WebUI,它长得像 ChatGPT,功能也更全。

第一步:安装 Docker Desktop

www.docker.com/products/do… 下载 Docker Desktop,安装后重启电脑。

第二步:启动 LM Studio 的 API 服务器

(跟上面一样,点一下「Start Server」,保持运行)

第三步:用 Docker 启动 Open WebUI

在命令行执行:

docker run -d \
  --name open-webui \
  -p 3000:8080 \
  -v open-webui:/app/backend/data \
  -e OPENAI_API_BASE_URL=http://host.docker.internal:1234/v1 \
  -e OPENAI_API_KEY=lm-studio \
  --restart unless-stopped \
  ghcr.io/open-webui/open-webui:main

几个关键点(免得你踩坑):

  • host.docker.internal 是 Docker 里访问宿主机的固定写法,不要改成 localhost
  • 端口 1234 是 LM Studio 的 API 端口
  • 端口 3000 是 Open WebUI 的访问端口

第四步:访问并使用

  1. 打开浏览器访问:http://localhost:3000
  2. 首次打开要注册一个账号(本地存储,随便填,密码别太复杂,你自己记住就行)
  3. 登录后,在设置里确认它连接的是 LM Studio

Open WebUI 比 LM Studio 自带界面强在哪?

功能说明我的使用场景
🤖 多模型切换一个界面切换不同模型同时加载 Qwen 和 Llama,对比回答
📝 对话历史自动保存,可搜索上周问的问题这周还能翻出来
📁 文件上传上传 PDF/Word 让 AI 分析把公司文档扔进去让它总结(反正数据不出本地)
🧩 插件系统装各种扩展支持联网搜索、代码执行等
🌐 主题切换深色/浅色晚上调深色,保护眼睛

界面截图,看起来就很高级

又比如之前用的带视觉的gemma-4-26b-a4b-qat,如果用LM sudio,根本没办法上传图片,但是openwebui可以

fb69ecfd-f504-4564-9ca1-c13d6627fa13.png

Docker 常用命令(贴在这里备用)

# 看看容器有没有在跑
docker ps

# 出问题了看日志
docker logs -f open-webui

# 停掉它
docker stop open-webui

# 删掉重来(配置还在,因为挂了 volume)
docker rm open-webui

# 重新启动
docker start open-webui

性能优化:我的 5060Ti 16G 如何满血运行

推荐配置(在 LM Studio 右侧的「Model Settings」里调)

{
  "context_length": 8192,    // 日常 8K 够用,别开 262K,会爆显存
  "gpu_layers": 35,          // 所有层都扔 GPU,速度拉满
  "threads": 8,              // 我的 CPU 有 8 个核,全用上
  "batch_size": 512          // 默认值,不用动
}

三招保显存(血泪经验)

  1. 别把上下文拉满
    Qwen3.6 支持 262K token,但那是给多卡土豪用的。16GB 显存老老实实开 8K-16K,稳如老狗。

  2. 关掉其他占显存的程序
    浏览器、IDE、Chrome 都是显存杀手。我每次跑模型前都关掉多余的 Chrome 标签页,省出 1-2GB。

  3. 如果还是爆显存,选更低的量化
    Q4_K_M 是 16GB,如果还爆,试试 Q3_K_M(约 12GB),质量略降但流畅度提升。


我能拿它干什么?(不止是聊天)

1. 编程助手(我最常用的)

# 问它写代码,它从不抱怨需求变更
response = client.chat.completions.create(
    model="Qwen3.6-35B-A3B",
    messages=[
        {"role": "user", "content": "用 Python 写一个快速排序,要加注释"}
    ]
)

2. 私有文档问答(公司代码不外传)

把公司内部文档喂给它,问啥答啥,数据永远不出本地服务器。

3. 接入 LangChain(玩出花)

from langchain.chat_models import ChatOpenAI

llm = ChatOpenAI(
    base_url="http://localhost:1234/v1",
    model="Qwen3.6-35B-A3B"
)

# 然后就和调用 GPT 完全一样了,但免费、私有、不限量

4. 敏感数据处理(医疗/法律/财务)

客户数据不能上传云端?本地模型完美解决。
我有个做医疗信息化的朋友,就用这套方案处理病历摘要,合规又安全。


常见问题(都是我自己踩过的坑)

Q1: 显存爆了,怎么办?

  • 换 Q3_K_M 版本(约 12GB)
  • context_length 从 8192 降到 4096
  • 关闭所有 Chromium 浏览器(它们吃显存像喝水)

Q2: 回答速度慢得像蜗牛?

  • 检查 LM Studio 底部是不是显示 GPU Layers: 0/35,如果是,说明没用 GPU
  • 去「Settings」里确认 GPU 被勾选
  • threads 调高(等于你 CPU 的核心数)

Q3: Open WebUI 连不上 LM Studio?

  • 确认 LM Studio 的「Server」是绿色(Running)状态
  • 确认端口 1234 没有被其他程序占用
  • Docker 容器里用 host.docker.internal,不要用 localhost

总结:我的 5060Ti 已经成了全能打工人

今天我们用 LM Studio + Qwen3.6-35B-A3B,给 5060Ti 又解锁了一个新技能:

本地部署零门槛:LM Studio 双击即用,连我这种懒人都能跑起来
MoE 架构省显存:350 亿参数只激活 30 亿,16GB 刚好跑满
兼容 OpenAI API:代码零改动,从云端切换成本地
Open WebUI 加持:界面好看,功能强大,还能传文件
数据私有化:敏感信息不出本地,合规又安心

现在我的 5060Ti 已经会画画、会配音、会聊天,下次是不是该让它学会写代码了?
哦等等,它现在就在帮我写代码……那我是不是要失业了?🤔

本章代码拿走不谢


下期预告:也许我会用 5060Ti 跑一下视频生成,或者搞个多模态模型,让它“看图说话”?
反正显卡已经买了,钱也花了,必须榨干它的每一滴算力!💪


参考链接(真的有用):


最后一句扎心忠告
本地模型再强,也写不出“我爱你”这种句子——它只会给你一首情诗,然后问你“要不要再优化一下”。
所以,别怕失业,你还是比 AI 多了一颗会心动的心脏。❤️