本文档主要是指引Deepseek本地部署教程,可以平移到其他的模型也适用。如:qwen等
安装ollama
下载ollama
ollama.com/
选择对应的版本下载,然后跟着一路执行到最后
终端使用
安装成功后,搜索cmd,打开终端应用
验证是否安装成功
复制到cmd中执行
ollama help
如下
启动
启动ollama
复制到cmd中执行
ollama serve
是否启动成功
访问:http://127.0.0.1:11434/
出现如下标志表示运行成功
查看正在运行的模型
复制到cmd中执行
ollama ps
显卡算力理解(比较技术,可以跳过)
一般需要GPU,显卡的算力
- 确定模型参数规模例如:DeepSeek R1-7B对应7B参数(十亿:7×10^9)。
- 选择计算精度
-
- FP16:每个参数占2字节
- 4-bit量化:每个参数占0.5字节(4/8=0.5)
- 8-bit量化:每个参数占1字节
- 场景系数选择
-
- 推理:仅需参数和激活值(约1.2倍参数体积)示例:7B模型FP16推理显存 ≈ 7×2×1.2 = 16.8GB
- 额外开销(KV缓存)每token的KV缓存显存 ≈ 2×层数×隐藏维度×序列长度×批次大小。例如:
-
- 7B模型(32层,4096隐藏维度)在1024序列长度下,KV缓存 ≈ 2×32×4096×1024×1 ≈ 256MB。
- 量化优化4-bit量化可减少75%参数体积,但需额外10%-20%显存用于量化映射表 示例:7B模型4-bit推理显存 ≈ 7×0.5×1.2 + 0.3GB ≈ 4.5GB
大概的算力对照表价格差异问题:200B vs 671B:671B采用MoE架构+显存压缩技术(如Int4量化),单卡RTX 4090即可部署,而200B需8x A100集群,更详细请查看更多官方资料说明:
- 量化支持:4-bit量化可减少约75%显存占用,但可能损失5-10%精度
- 分布式训练:200B以上参数需多显卡并行,建议使用NVIDIA NVLink互联
- 推理优化:使用vLLM等推理框架可进一步降低显存占用(如14B模型INT8推理仅需9GB)
- 硬件兼容性:AMD Radeon显卡支持部分模型(如RX 7900XTX可运行14B量化版),但生态支持弱于NVIDIA
建议根据任务复杂度选择模型,例如日常使用选7B/14B,科研选70B+,超大规模任务需集群部署。实际部署前建议测试量化版本,平衡性能与资源消耗
选择Deepseek模型
模型选择
根据电脑的配置,可以选择最小的1.5b模型
部署运行模型
复制命名到终端运行如ollama run deepseek-r1:1.5b
ollama run deepseek-r1:1.5b
搭配界面
终端不是很方便操作,所以我们需要一个界面来承载。
Chatbox
使用网页版
配置
打开web.chatboxai.app/
输入地址:http://127.0.0.1:11434/
效果
使用桌面版
chatboxai.app/zh
下载对应桌面版,配置参考网页版
Page Assist
Page Assist 作为一款开源的 Chrome 扩展程序,堪称本地 AI 模型交互的得力助手。它为用户打造了直观易用的交互界面,让本地 AI 模型的应用更加便捷。
Page Assist 插件文件的下载方式主要有以下几种:
- 从 GitHub 下载:访问Page Assist 的 GitHub 仓库从 GitHub 下载:访问Page Assist 的 GitHub 仓库,进入该页面后点击 “Releases” 标签,在里面找到适合你浏览器版本的插件文件进行下载。比如你使用 Chrome 浏览器,可下载对应的 Chrome 版本插件文件。
- 从谷歌应用商店下载:如果你使用 Chrome 浏览器,可以打开谷歌应用商店中的 Page Assist 页面Chrome 浏览器,可以打开谷歌应用商店中的 Page Assist 页面,点击 “添加至 Chrome” 按钮即可下载安装。不过该方式可能需要科学上网工具才能访问。
- 从第三方插件网站下载:可以通过crxsoso等第三方插件下载网站进行下载,但要注意选择正规、可靠的网站,避免下载到恶意软件或损坏的文件。
安装扩展
可选择一种方式,在线或者离线
在线安装
我们可以直接从 Chrome Web Store 或 Firefox Add-ons 商店下载安装,也可以通过手动安装的方式进行。访问 chromewebstore.google.com/search/,搜索 Page Assist:
离线安装
从第三方插件网站下载:可以通过crxsoso等第三方插件下载网站进行下载,但要注意选择正规、可靠的网站,避免下载到恶意软件或损坏的文件。下载插件文件后将文件拖过去安装提示成功就行
固定窗口
点击插件详情进去
界面效果,会自动识别ollama
打开:两个入口
效果
其他
手机端:Chatbox可以用网页版或APP版ps:需要云部署把服务放出来才能访问