主流方案是结合 Ollama 或 Docker Compose 部署支持大模
在 Windows 系统下使用 Docker 安装并运行大模型,主流方案是结合 Ollama 或 Docker Compose 部署支持大模型的容器服务。以下是基于最新公开资料(截至 2026 年 3 月)的完整操作指南。
一、核心前提条件
系统要求:Windows 10/11 专业版或企业版(家庭版需手动启用 Hyper-V 和 WSL2)。
硬件建议:
内存:≥16GB(推荐 32GB)
存储:SSD,至少 50GB 可用空间(模型文件较大)
GPU(可选但推荐):NVIDIA 显卡(如 RTX 3060),需安装最新驱动并支持 CUDA 。
启用虚拟化:
打开任务管理器 → 性能 → CPU,确认“虚拟化”已启用。
若未启用,需在 BIOS 中开启 Intel VT-x 或 AMD-V。
二、安装 Docker Desktop 下载安装包:
Docker Desktop for Windows
安装时勾选:
✅ Use WSL 2 instead of Hyper-V(推荐使用 WSL2 后端)
安装完成后重启电脑。 验证安装: 打开 PowerShell,运行: docker run hello-world
若看到 “Hello from Docker!”,说明安装成功 。
💡 优化建议:为避免 C 盘爆满,可更改 Docker 镜像存储路径至 D 盘:
Docker Desktop → Settings → Resources → Advanced → 修改 “Disk image location” 。
三、部署大模型的两种主流方式 方案 1:使用 Ollama(推荐新手)
Ollama 是专为本地运行大模型设计的工具,支持多种模型(如 Qwen、DeepSeek、Llama 等),可通过命令行或 Web UI 交互。
下载 Ollama 安装包:
Ollama 官网
自定义安装路径(避免 C 盘):
以管理员身份打开 CMD,进入 OllamaSetup.exe 所在目录,执行:
OllamaSetup.exe /DIR=D:\ollama
设置模型存储路径:
设置环境变量 OLLAMA_MODELS 指向自定义目录(如 D:\ollama_models)。
拉取并运行模型(例如 Qwen3.5-4B):
ollama pull qwen3.5:4b
ollama run qwen3.5:4b
部署 Open WebUI(可选,提供图形界面):
docker run -d -p 3000:8080 --name open-webui \
-v open-webui-data:/app/backend/data \
ghcr.io/open-webui/open-webui:main
访问 http://localhost:3000 即可使用 。
方案 2:使用 Docker Compose 部署 Dify + Ollama
适合希望构建 AI 应用(如私有 GPT)的用户。
安装 Git:
Git for Windows
克隆 Dify 项目:
git clone https://github.com/langgenius/dify.git
cd dify/docker
配置环境变量:
cp .env.example .env
启动服务:
docker compose up -d
首次运行会自动拉取镜像并初始化数据库 。
配置本地 Ollama 模型:
在 Dify 的 Web 界面(默认 http://localhost)中,添加 Ollama 模型供应商,并指定模型地址为 http://host.docker.internal:11434 。
四、常见问题排查
Docker 启动失败:确保已启用 Hyper-V 和 WSL2 。
镜像拉取慢:配置国内镜像加速器(如中科大、阿里云)。
GPU 未识别:在 WSL2 中运行 nvidia-smi,确认驱动和 CUDA 已正确安装 。
端口冲突:使用 netstat -ano | findstr :11434 查找占用进程并结束 。
五、推荐轻量模型(适合消费级显卡)
模型
参数量
显存占用(FP16)
适用场景
Qwen3.5-4B
40亿
~8–10GB
对话、代码生成
DeepSeek-R1-7B
70亿
~14GB(量化后更低)
多轮对话、推理
Phi-3-mini
38亿
~6GB
轻量级聊天、手机端部署
可通过 ollama list 查看已安装模型,ollama pull <model_name> 下载新模型 。
通过以上步骤,即可在 Windows 上成功使用 Docker 安装并运行大模型。如需进一步优化性能,可参考 NVIDIA 官方指南 配置 GPU 加速。