本地部署
1.下载ollama应用, 托管大模型
2.下载完ollama,命令行启动ollama服务,下载大模型
启动ollama服务
ollama start
查看本地有什么模型
ollama list
如果有可以直接启动
ollama run xxxx
下载对应的模型 (https://ollama.com/library)
ollama pull deepseek-r1:7b
3.启动后,就可以跟大模型对话了
4.此时大模型也会通过本地接口提供服务(默认端口:11434)
本地调用
1.本地安装python3, 安装langchain相关库
pip install langchain # 安装 LangChain 社区集成(包含大量第三方工具、文档加载器等)
pip install langchain-community
from langchain_community.llms import Ollama
# 初始化 Ollama LLM
llm = Ollama(
model="deepseek-r1:7b", # 你的模型名称
base_url="http://localhost:11434", # Ollama 默认地址
temperature=0.7, # 温度参数,控制随机性
)
# 直接调用
# response = llm.invoke("用一句话介绍你自己")
# print(response)
# 流式输出
for chunk in llm.stream("请写一首关于春天的短诗"):
print(chunk, end="", flush=True)
执行
python xxx.py
本地构建轻量级服务
1.cursor实现服务
2.启动服务
安装依赖
pip install -r requirements.txt
启动服务
python3 app.py
3.示例调用服务
http://127.0.0.1:5000/chat
{
"message": "你好,请介绍一下你自己",
"history": [
{"role": "user", "content": "你是谁?"},
{"role": "assistant", "content": "我是一个助手。"}
]
}