本地AI部署实战!手把手教你用Dify+Ollama部署本地大模型

0 阅读5分钟

在大模型技术飞速发展的今天,如何在保证数据安全的前提下,利用本地算力搭建属于自己的AI应用,成为了许多开发者和企业关注的焦点。Dify 作为一个强大的低代码 AI 应用开发平台,结合 Ollama 这一轻量级本地模型管理工具,为我们提供了一套完美的本地化解决方案。

本文将带你从零开始,通过 Dify + Ollama 的技术组合,完成本地大模型的部署与接入,最终实现一个私有化的聊天助手。

整体架构与接入方式

本次部署的核心逻辑在于“本地服务调用”。Ollama 负责在本地计算机上运行大模型并提供一个标准化的 API 接口;Dify 则作为前端应用层,通过 HTTP 请求将用户的提问转发给 Ollama,并将 Ollama 返回的模型推理结果展示给用户。

这种架构的优势在于模型权重和数据完全保存在本地,无需上传至云端,既保护了隐私,又能充分利用本地硬件资源。

Ollama概述

Ollama简介

Ollama 是一个专为在本地机器上运行、管理和分发大型语言模型而设计的开源工具。它极大地简化了大模型的部署流程,用户无需关心复杂的深度学习环境配置(如 CUDA、PyTorch 版本兼容性等),只需通过简单的命令行指令即可下载和运行模型。

Ollama 支持多种主流模型架构(如 Llama 3、Qwen、Gemma 等),并允许用户自定义模型参数和系统提示词。对于个人开发者而言,它是体验和集成大模型能力的“瑞士军刀”。

官网地址

Ollama官网地址:ollama.com/

Ollama下载地址:ollama.com/download/wi…

Ollama安装指南

Windows系统安装

首先,需要确保Windows系统版本为Win10 22H2以上。由于Ollama依赖WSL2(适用于Linux的Windows子系统),需要进入“控制面板”-“程序”-“启动或关闭Windows功能”,勾选“虚拟机平台”和“适用于Linux的Windows子系统”,然后重启电脑。

启用或关闭Windows功能

从Ollama官网直接下载Windows版本的Ollama,下载下来的是.exe文件,直接双击打开安装即可,默认Ollama会将软件安装到C盘。

安装完成后,打开Ollama,进入到其主界面:

Ollama应用界面

或者也可以通过CMD命令行验证是否安装成功,执行以下命令查看安装Ollama的版本号:

ollama -v

Linux系统安装

在Linux系统下安装比较简单,只需要在终端执行官方提供的一键安装脚本即可。

curl -fsSL https://ollama.com/install.sh | sh

安装完成后,也可以通过命令查看Ollama版本号:

ollama -v

Ollama模型下载与测试

首先,考虑到个人电脑硬件资源(主要是显存和内存)有限,这里我们选择一个比较轻量级的模型:qwen2.5:1.5b,进行测试。

为了方便操作,这里就以Windows下载的Ollama为例操作,Linux系统中需要使用命令进行操作。

下载模型

直接点击右下角搜索选择我们需要的模型。

搜索qwen2.5:1.5b

选择好后,需要我们在输入框中,给大模型发送个问题,Ollama发现我们没有下载该模型,就会自动开始下载。

模型存储位置

在界面有右侧菜单栏中,选择“Settings”,进入设置界面。

点击“Settings”进入设置界面

在设置界面中,我们可以看到“Model location”,通过浏览按钮,选择模型保存的位置,建议选择非C盘以外的存储目录。

设置模型存储位置

对话测试

下载完成后,就可以直接给大模型发送信息了,例如下图所示,提问:“你好,介绍一下你自己”,模型就会给出对应的回复。

对话测试

Dify配置与接入

完成了本地模型的部署,下一步就是在Dify中进行配置,打通“最后一公里”。

Dify安装与部署参考:

Dify安装Ollama插件

通过浏览器访问Dify后台管理台。点击右上角头像,选择“设置”,进入到设置界面点击“模型供应商”,直接搜索“Ollama”应用,并安装。

安装Ollama插件

配置模型参数

还是进入到“模型供应商中”,选择Ollama插件上的“添加模型”。

配置模型参数

注意:

Ollama启动后,默认会开放一个服务,端口号为11434。

创建聊天助手

回到Dify主界面工作室界面,点击“创建空白应用”,还是选择“聊天助手”。

创建聊天助手

创建完成后,进入到编排界面,在右上角选择模型,这里我们选择Ollama。

选择模型

测试聊天助手

总结

至此,我们成功搭建了一个基于Dify和Ollama的本地AI应用环境。虽然,只是qwen2.5:1.5b轻量级模型,推理能力也有限,但是可以证明这套技术链路是可行的。随着硬件性能的提升,完全可以替换为更大参数的模型(如 Llama3 70B,或者 Qwen 72B),构建更强大的本地智能应用。