模型API免费额度不够用,换个永久免费方案

104 阅读3分钟

前言

学习LangChain框架过程中,用的免费账号,刚调用OppenAI的API,用了两天,还没开始用LangChain框架呢额度没有了,然后换成 Google 的 Gemini API, 看起来免费额度不少,不同模型的免费额度也不同

在本地运行LangChain相关例子时,运行LangChain组件记忆的相关例子代码时候,代码还没跑通呢,也提示额度不够了,要么手动换成其他模型,要么第二天刷新额度后再用,这额度限制还是挺恶心的,只是学习需求,索性本地搭一个免费的开源模型直接用算了

本地部署方案

Ollama + Qwen2

为什么选择Qwen

  • 中文支持碾压其他开源模型,相对免费账户中的 Gemini-2.5-Flash 等模型中文能力更加强大
  • 多任务能力均衡:对话、总结、轻度代码、逻辑推理都能覆盖
  • 部署友好:支持 Ollama 一行命令启动起来了

Ollama

Ollama 是一个用于运行本地大语言模型(LLM)的平台,它允许用户在本地部署和运行各种预训练的模型,而无需依赖外部 API 或云服务。Ollama 提供了一个简单的命令行界面,用于启动和管理本地模型的实例。

安装

直接官网下载,找对应自己电脑的版本

ollama.com/

官方下载页

ollama.com/download

我是 win11, 下载exe直接下一步下一步安装就好了

安装好以后,检查是否安装成功,在命令行中输入以下命令,如果出现版本号说明就安装好了

ollama --version

运行后,有时候会提示更新,我点击了更新并重启,再次测试版本,我的版本是 0.14.2

PS C:\Users\82598> ollama --version
ollama version is 0.14.2

这是新版页面效果

安装模型

可以通过命令行的形式安装,例如我准备安装 qwen:7b 模型,执行如下命令,这个命令会自动拉取模型安装并运行

ollama run qwen:7b

还能通过Ollama页面直接下载安装,选择模型然后安装

安装好以后,就可以在页面上看到安装好的模型,并选择对应的模型对话使用了

也能在终端中使用

注意!

安装模型之前,要先查一下自己的电脑硬件情况,看支持哪些模型,主要看内存和显存

我的电脑是普通的办公笔记本,所以只能安装一个小模型,例如 qwen:7b 先用着

qwen:7b 模型硬件配置,需要 8G 内存 / 6G 显存 就可以跑

代码对接模型

安装依赖

pip install langchain-ollama

创建 test_request.py 文件,添加下面代码,测试一下是否能正常调用Ollama中的模型

from langchain_ollama import ChatOllama
from langchain_core.messages import HumanMessage

# 1. 初始化本地 qwen:7b 模型(对接 Ollama 本地 API,无需 API Key)
chat_llm = ChatOllama(
    model="qwen:7b",  # 必须与 Ollama 启动的模型名称一致(大小写敏感)
    base_url="http://localhost:11434",  # Ollama 本地服务默认地址,无需修改
    temperature=0.7,  # 可选:创意度调整(0-1,越低越严谨)
    max_new_tokens=512  # 可选:最大生成文本长度
)

messages = [
    HumanMessage(content="你好,你是什么模型")
]

response = chat_llm.invoke(messages)

print(response.content)

输出结果如下,说明本地模型调用成功了

小结

现在AI相关的各种软件工具更新的都很快,有问题先问下AI,让AI出个方案,看一下方案没问题,然后在本地快速尝试,而且安装之类的基本都是一键操作,或者一行命令搞定,很简单,选择模型的时候根据电脑的硬件配置,选择一个合适的模型就可以了

本地模型部署好就没有API额度限制的烦恼了,继续学习LangChain相关的内容,加油!!!

欢迎留言交流,如果觉得有帮助,可以点个赞支持一下

公众号:草帽lufei