从"装龙虾"到"卸龙虾":一个比奶茶效应更魔幻的AI浪潮
不知道从什么时候开始,朋友圈突然被"本地部署AI助手"刷屏了。
同事小张说他装了,晚上11点还在研究配置; 大学同学老王说他用了,一周烧掉200块API费用; 邻居李姐更狠,装了3天跑了100块,最后默默卸载...
"装龙虾"——这个词最近在各大AI爱好者群里悄悄流行。
你有没有想过:
- 为什么很多人装了本地AI,用了不到一周就卸载?
- 为什么明明有免费额度,还是有人一夜返贫?
- 为什么有人月入3万,而你却还在为每天100块的Token费用发愁?
今天这篇文章,我用一个真实案例,告诉你最低成本的本地AI部署方案,让你不再为Token账单发愁。
一、为什么你装的大模型总是不香?
1.1 那些年我们踩过的"龙虾坑"
说实话,我见过太多人兴致勃勃地装好Ollama、拉下7B模型、配置好OpenClaw,结果:
❌ 问题一:装了不会用 "Hello world跑通了,然后呢?" "我该问它什么?" "为什么它的回答总是怪怪的?"
❌ 问题二:Token费用惊人 api费、流量费、会员费... 本以为本地部署=免费,结果账单比订阅ChatGPT还贵 一觉醒来,100块没了
❌ 问题三:配置太复杂 CUDA版本不对、PyTorch冲突、显存不够... 还没跑起来,电脑先蓝屏了
❌ 问题四:装了不知道干啥 配置好了跑起来了,但不知道能干啥 用了几次就放在角落里吃灰了
这不就是现在的"龙虾"现状吗? 排队2小时安装,付款时就卸载,卸载完就后悔。
1.2 真的需要花大钱才能用AI吗?
答案是否定的。
今天我要分享的方案:
- 硬件门槛:只要你有8GB显存
- 软件成本:趋近于零
- Token消耗:无限量!无限量!无限量!
二、8G显存电脑的满分方案:Qwen3.5 4B + OpenClaw
2.1 先说说我的配置
先镇楼:
- 显卡:RTX 5060 8GB(笔记本/台式电脑)
- 系统:Windows 10/11
- 内存:32GB(16GB也够用)
- 部署模型:Qwen3.5 4B
为什么要选这个组合?后面会详细说。
2.2 环境准备
Step 1:安装Ollama
Ollama是目前最流行的本地大模型运行平台,安装非常简单:
访问 Ollama官网,下载Windows安装包:
# 或者用命令行下载
irm "https://github.com/ollama/ollama/releases/download/v0.18.2/OllamaSetup.exe" -OutFile "$env:USERPROFILE\Downloads\OllamaSetup.exe"
下载完成后,双击安装即可。
验证安装成功:
ollama --version
Step 2:安装OpenClaw
OpenClaw是一个强大的AI助手框架,支持多种大模型接入,让你的本地AI像ChatGPT一样好用地调用各种工具。
💡 安装方式:
- 需要先安装 Node.js(npm会自带npx)
单独安装命令(需要Node.js环境):
npm install -g openclaw
npx openclaw gateway install
2.3 模型选择:为什么是Qwen3.5 4B?
这是本次方案的关键!选错模型,轻则体验差,重则烧钱。
主流模型对比(8G显存):
| 模型 | 参数量 | 显存占用 | 速度 | Tool Calling | 推荐指数 |
|---|---|---|---|---|---|
| Qwen2.5 7B | 7B | ~6GB | 中 | ❌ 匹配不佳 | ⭐⭐ |
| Qwen3.5 4B | 4B | ~4GB | 快 | ✅ 支持良好 | ⭐⭐⭐⭐⭐ |
| Llama3.1 8B | 8B | ~7GB | 慢 | ✅ 支持良好 | ⭐⭐⭐ |
⚠️ 注意:Qwen2.5 7B虽然参数量更大,但对OpenClaw的工具调用(Tool Calling)匹配不佳,调用后容易丢失上下文。Qwen3.5 4B虽然参数量小,但对Tool Calling支持更好,更适合OpenClaw场景。
为什么我选Qwen3.5 4B?
- 显存占用低:只有4GB,8G显卡轻松带动
- 速度快:实测5-10秒出答案
- Tool Calling支持好:工具调用不丢上下文 ← 关键!
- 效果好:阿里开源,能力不俗
拉取模型:
# 清除可能存在的代理设置
$env:HTTP_PROXY=$null
$env:HTTPS_PROXY=$null
# 开始下载
ollama pull qwen3.5:4b
下载约3.4GB,500M宽带约10分钟。
设置模型上下文长度:
下载完成后,打开Ollama的Settings界面(通常在系统托盘图标右键菜单),找到模型设置,将 Context Length 设置为 32K。
⚠️ 注意:设置为64K也可以,但生成文字速度会变慢,显存也会增加约600MB。建议使用32K,性价比最高,所有基本使用场景均满足。
2.4 核心配置
找到配置文件:C:\Users\<用户名>\.openclaw\openclaw.json
或简单做法,找到这个openclaw.json文件,丢给豆包/deepseek,让其做下面的两个配置,将返回结果粘贴替换文件中的所有内容。
在models的provider下添加以下配置:
"ollama": {
"baseUrl": "http://localhost:11434/v1",
"apiKey": "ollama",
"api": "openai-completions",
"models": [
{
"id": "qwen3.5:4b",
"name": "Qwen3.5 4B",
"reasoning": false,
"input": ["text"],
"cost": {
"input": 0,
"output": 0,
"cacheRead": 0,
"cacheWrite": 0
},
"contextWindow": 32000,
"maxTokens": 8192
}
]
}
设置默认模型:
"agents": {
"defaults": {
"model": {
"primary": "ollama/qwen3.5:4b",
"fallbacks": [
"modelscope/deepseek-ai/DeepSeek-R1-0528"
]
},
"models": {
"ollama/qwen3.5:4b": {},
"modelscope/deepseek-ai/DeepSeek-R1-0528": {}
}
}
}
关键参数说明:
contextWindow: 32000- 上下文窗口32K,够用maxTokens: 8192- 单次生成最大8K tokensreserveTokens: 1000- 保留空间,建议1000左右
重启网关:
npx openclaw gateway restart
2.5 避坑指南(血泪教训)
坑1:上下文窗口太小
如果看到 Model context window too small 错误,说明上下文超出限制了。
解决:开启新会话,或者减少 reserveTokens 值。
坑2:模型选择器报错
如果界面选择模型时报 model not allowed,这是因为缺少provider前缀。
解决:手动输入完整ID ollama/qwen3.5:4b
三、大龙虾能干啥?先说几个基础玩法
好了,看到这里你应该已经部署成功了。
那么问题来了:装好了能干啥?
其实大龙虾(OpenClaw + 本地模型)能做的事太多了:
基础玩法
🤖 24小时私人助理 写文案、翻译文章、代码审查...
📚 本地知识库 上传你的笔记、文档,问啥都能快速回答
🔍 深度研究助手 帮你分析长篇文章、总结报告
💬 多轮对话 记住上下文,连续追问不用重复解释
四、案例:AI助手实际应用
基于这个部署方案,你可以构建各种实用的AI应用:
4.1 智能问答系统
🤖 知识库问答 上传文档、笔记,AI随时解答相关问题
📚 技术支持助手 针对特定领域的技术问题,提供专业解答
4.2 个人 productivity 工具
🔄 多任务管理 帮助整理工作流程、安排日程
📊 数据分析 处理和分析各类数据,生成可视化报告
五、总结:你的AI自由,从这篇文章开始
回顾一下本文的方案:
✅ 硬件要求:8GB显存电脑(游戏本即可) ✅ 软件成本:几乎为零 ✅ Token消耗:无限量!再也不用看API账单 ✅ 部署难度:跟着本文做,30分钟搞定 ✅ 实际应用:多种AI工具开箱即用
月均成本估算:
- 电费:约15元/月(每天用8小时)
- 初始投入:一台有8G显卡的电脑(你可能已经有了)
比起每个月几百块的API费用,这基本上就是零成本。
六、获取更多资源
6.1 一键三连
如果这篇文章对你有帮助,请:
- 👍 点赞
- 🔄 转发
- ★ 收藏
6.2 私信获取更多支持
想了解更多玩法,或者遇到问题需要帮忙? 私信我哦
6.3 进阶资源
- Ollama官网 - 模型管理
- ModelScope - 模型下载
- OpenClaw文档 - 助手配置
最后一句话:
AI时代,信息差就是财富差。
与其花大价钱买Token,不如花30分钟学会本地部署。
你的AI自由,从现在开始。
如果你觉得这篇攻略有帮到你,欢迎一键三连支持一下!有任何问题评论区见~