前言
学习LangChain框架过程中,用的免费账号,刚调用OppenAI的API,用了两天,还没开始用LangChain框架呢额度没有了,然后换成 Google 的 Gemini API, 看起来免费额度不少,不同模型的免费额度也不同
在本地运行LangChain相关例子时,运行LangChain组件记忆的相关例子代码时候,代码还没跑通呢,也提示额度不够了,要么手动换成其他模型,要么第二天刷新额度后再用,这额度限制还是挺恶心的,只是学习需求,索性本地搭一个免费的开源模型直接用算了
本地部署方案
Ollama + Qwen2
为什么选择Qwen
- 中文支持碾压其他开源模型,相对免费账户中的 Gemini-2.5-Flash 等模型中文能力更加强大
- 多任务能力均衡:对话、总结、轻度代码、逻辑推理都能覆盖
- 部署友好:支持 Ollama 一行命令启动起来了
Ollama
Ollama 是一个用于运行本地大语言模型(LLM)的平台,它允许用户在本地部署和运行各种预训练的模型,而无需依赖外部 API 或云服务。Ollama 提供了一个简单的命令行界面,用于启动和管理本地模型的实例。
安装
直接官网下载,找对应自己电脑的版本
官方下载页
我是 win11, 下载exe直接下一步下一步安装就好了
安装好以后,检查是否安装成功,在命令行中输入以下命令,如果出现版本号说明就安装好了
ollama --version
运行后,有时候会提示更新,我点击了更新并重启,再次测试版本,我的版本是 0.14.2
PS C:\Users\82598> ollama --version
ollama version is 0.14.2
这是新版页面效果
安装模型
可以通过命令行的形式安装,例如我准备安装 qwen:7b 模型,执行如下命令,这个命令会自动拉取模型安装并运行
ollama run qwen:7b
还能通过Ollama页面直接下载安装,选择模型然后安装
安装好以后,就可以在页面上看到安装好的模型,并选择对应的模型对话使用了
也能在终端中使用
注意!
安装模型之前,要先查一下自己的电脑硬件情况,看支持哪些模型,主要看内存和显存
我的电脑是普通的办公笔记本,所以只能安装一个小模型,例如 qwen:7b 先用着
qwen:7b 模型硬件配置,需要 8G 内存 / 6G 显存 就可以跑
代码对接模型
安装依赖
pip install langchain-ollama
创建 test_request.py 文件,添加下面代码,测试一下是否能正常调用Ollama中的模型
from langchain_ollama import ChatOllama
from langchain_core.messages import HumanMessage
# 1. 初始化本地 qwen:7b 模型(对接 Ollama 本地 API,无需 API Key)
chat_llm = ChatOllama(
model="qwen:7b", # 必须与 Ollama 启动的模型名称一致(大小写敏感)
base_url="http://localhost:11434", # Ollama 本地服务默认地址,无需修改
temperature=0.7, # 可选:创意度调整(0-1,越低越严谨)
max_new_tokens=512 # 可选:最大生成文本长度
)
messages = [
HumanMessage(content="你好,你是什么模型")
]
response = chat_llm.invoke(messages)
print(response.content)
输出结果如下,说明本地模型调用成功了
小结
现在AI相关的各种软件工具更新的都很快,有问题先问下AI,让AI出个方案,看一下方案没问题,然后在本地快速尝试,而且安装之类的基本都是一键操作,或者一行命令搞定,很简单,选择模型的时候根据电脑的硬件配置,选择一个合适的模型就可以了
本地模型部署好就没有API额度限制的烦恼了,继续学习LangChain相关的内容,加油!!!
欢迎留言交流,如果觉得有帮助,可以
点个赞支持一下公众号:草帽lufei