极简聊天服务实现使用cursor简单实现一个聊天应用 python + flask 构建轻量级服务器 langchain

本地部署

1.下载ollama应用，托管大模型

2.下载完ollama，命令行启动ollama服务，下载大模型

启动ollama服务
ollama start 

查看本地有什么模型
ollama list

如果有可以直接启动
ollama run xxxx

下载对应的模型 (https://ollama.com/library)
ollama pull deepseek-r1:7b

3.启动后，就可以跟大模型对话了

4.此时大模型也会通过本地接口提供服务（默认端口：11434）

本地调用

1.本地安装python3，安装langchain相关库

pip install langchain # 安装 LangChain 社区集成（包含大量第三方工具、文档加载器等）
pip install langchain-community

from langchain_community.llms import Ollama

# 初始化 Ollama LLM
llm = Ollama(
    model="deepseek-r1:7b",  # 你的模型名称
    base_url="http://localhost:11434",  # Ollama 默认地址
    temperature=0.7,  # 温度参数，控制随机性
)

# 直接调用
# response = llm.invoke("用一句话介绍你自己")
# print(response)

# 流式输出
for chunk in llm.stream("请写一首关于春天的短诗"):
    print(chunk, end="", flush=True)

执行

python xxx.py

本地构建轻量级服务

1.cursor实现服务

gitee.com/go__dev/cha…

2.启动服务

安装依赖
pip install -r requirements.txt

启动服务
python3 app.py

3.示例调用服务

http://127.0.0.1:5000/chat

{
    "message": "你好，请介绍一下你自己",
    "history": [
      {"role": "user", "content": "你是谁？"},
      {"role": "assistant", "content": "我是一个助手。"}
    ]
  }