LangChain + SQLAlchemy、异步+流式处理实现 RAG 的完整技术方案LangChain + SQLA

内容概述

一、概述与架构设计

技术背景与挑战
整体架构图
技术栈对比表格

二、核心概念深入解析

异步编程原理
RAG 工作流程图解
对话历史管理机制
SQLAlchemy 异步架构对比

三、完整实现方案 (分步骤详解)

环境准备与依赖安装
数据库模型设计(含 ER 关系)
向量存储与检索器配置
异步 RAG 链构建
会话历史管理实现
FastAPI 集成示例

四、性能优化与最佳实践

数据库连接池调优
向量检索策略对比
并发控制与超时处理
错误重试机制

五、监控与调试

日志记录方案

六、常见问题与解决方案

异步编程陷阱
数据库连接问题
检索质量优化

一、概述与架构设计

1.1 技术背景

检索增强生成（Retrieval-Augmented Generation, RAG）已成为构建智能问答系统的核心技术范式。RAG 通过将外部知识库的检索能力与大语言模型的生成能力相结合,有效解决了 LLM 在处理特定领域知识、实时信息更新以及减少幻觉等方面的局限性。

RAG 系统需要处理但不局限于以下内容:

会话状态管理: 维护多轮对话的上下文连续性
高并发处理: 支持多用户同时访问而不产生阻塞
持久化存储: 将对话历史可靠地存储到数据库
性能优化: 在 I/O 密集型操作中保持响应速度

异步编程模式为这些内容提供了理想的解决方案。通过 Python 的 asyncio 框架,配合 LangChain 的异步接口和 SQLAlchemy 的异步 ORM,我们可以构建一个高性能、可扩展的 RAG 应用。

1.2 整体架构

本方案的核心架构由以下几个层次组成:

graph TB
    A[用户请求] --> B[FastAPI 异步端点]
    B --> C[LangChain 异步 RAG 链]
    C --> D[异步向量检索器]
    C --> E[异步 LLM 调用]
    C --> F[异步数据库会话]
    D --> G[Chroma 向量数据库]
    E --> H[语言模型 API]
    F --> I[SQLite/PostgreSQL 数据库]
    I --> J[会话表]
    I --> K[消息表]

架构分层说明:

表现层: FastAPI 提供异步 HTTP 接口
编排层: LangChain 管理 RAG 工作流
数据层:
- 向量数据库存储文档嵌入向量
- 关系数据库存储对话历史
模型层: LLM 提供生成能力

1.3 核心技术栈对比

组件类型	同步方案	异步方案	性能提升
Web 框架	Flask	FastAPI	3-5x
数据库 ORM	SQLAlchemy (sync)	SQLAlchemy (async)	2-4x
LangChain	invoke()	ainvoke()	避免阻塞
会话管理	sessionmaker	async_sessionmaker	支持并发

二、核心概念深入解析

2.1 异步编程基础

2.1.1 为什么需要异步?

在传统的同步编程模型中,当程序执行 I/O 操作(如数据库查询、网络请求)时,整个线程会被阻塞,等待操作完成。这在单用户场景下可以接受,但在多用户并发场景下会导致严重的性能瓶颈。

异步编程的核心思想是:在等待 I/O 操作完成期间,释放线程去处理其他任务。当 I/O 操作完成时,通过回调或协程机制恢复执行。这种模式特别适合 I/O 密集型应用,如:

数据库查询: 等待数据库返回结果
HTTP 请求: 调用外部 API(如 LLM 服务)
文件读写: 加载大型文档或模型

2.1.2 Python 异步机制

Python 的异步编程基于以下核心概念:

协程 (Coroutine): 使用 async def 定义的函数,可以在执行过程中暂停和恢复。

async def fetch_data():
    # 遇到 await 时暂停,让出控制权
    result = await database.query()
    return result

事件循环 (Event Loop): 负责调度和执行协程的核心机制。

import asyncio

# 运行异步函数
asyncio.run(main())

await 关键字: 标记一个等待点,告诉事件循环"这里可以切换到其他任务"。

2.2 RAG 工作原理

RAG 系统的工作流程可以分为两个阶段:

2.2.1 索引阶段 (Indexing Phase)

graph LR
    A[原始文档] --> B[文档加载器]
    B --> C[文本分割器]
    C --> D[文档块]
    D --> E[嵌入模型]
    E --> F[向量表示]
    F --> G[向量数据库]

关键步骤:

文档加载: 从各种源(Web、PDF、数据库)提取文本
文本分割: 将长文档切分成适合处理的块(chunks)
向量化: 使用嵌入模型将文本转换为向量表示
存储: 将向量及元数据存入向量数据库

分割策略考量:

参数	说明	典型值	影响
chunk_size	每个块的字符数	500-2000	影响检索粒度
chunk_overlap	块之间的重叠	50-200	保持上下文连续性
separators	分割符号	["\n\n", "\n", " "]	尊重自然段落结构

2.2.2 检索生成阶段 (Retrieval-Generation Phase)

sequenceDiagram
    participant U as 用户
    participant Q as 查询处理
    participant V as 向量数据库
    participant L as LLM
    participant R as 响应

    U->>Q: 提交问题
    Q->>Q: 向量化查询
    Q->>V: 相似度搜索
    V-->>Q: 返回相关文档
    Q->>L: 构建提示(问题+上下文)
    L-->>R: 生成回答
    R-->>U: 返回结果

核心机制:

语义检索: 将用户问题转换为向量,在向量空间中搜索最相似的文档块
上下文构建: 将检索到的相关内容与用户问题组合成提示
生成答案: LLM 基于提供的上下文生成回答
引用溯源: 记录答案来源于哪些文档片段

2.3 对话历史管理

2.3.1 为什么需要对话历史?

在多轮对话场景中,后续问题常常依赖于之前的上下文。例如:

用户: "什么是任务分解?"
AI: "任务分解是将复杂任务拆解为更小、更简单步骤的过程..."

用户: "有哪些常见方法?" <- 这个"它"指代前面的"任务分解"

没有对话历史,模型无法理解第二个问题的指代关系。

2.3.2 对话历史的结构

对话历史本质上是消息序列,每条消息包含:

角色 (role): "user"(用户)、"assistant"(AI)、"system"(系统)
内容 (content): 消息的文本内容
元数据: 时间戳、会话 ID 等

数据库设计:

-- 会话表
CREATE TABLE sessions (
    id INTEGER PRIMARY KEY,
    session_id VARCHAR UNIQUE NOT NULL,
    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);

-- 消息表
CREATE TABLE messages (
    id INTEGER PRIMARY KEY,
    session_id INTEGER REFERENCES sessions(id),
    role VARCHAR NOT NULL,  -- 'user', 'assistant', 'system'
    content TEXT NOT NULL,
    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);

2.4 SQLAlchemy 异步架构

2.4.1 同步 vs 异步对比

同步模式:

from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker, Session

engine = create_engine("sqlite:///chat.db")
SessionLocal = sessionmaker(bind=engine)

def save_message(content: str):
    session = SessionLocal()
    try:
        message = Message(content=content)
        session.add(message)
        session.commit()  # 阻塞操作
    finally:
        session.close()

异步模式:

from sqlalchemy.ext.asyncio import create_async_engine, async_sessionmaker

engine = create_async_engine("sqlite+aiosqlite:///chat.db")
AsyncSessionLocal = async_sessionmaker(engine, expire_on_commit=False)

async def save_message(content: str):
    async with AsyncSessionLocal() as session:
        message = Message(content=content)
        session.add(message)
        await session.commit()  # 非阻塞,可以并发处理其他请求

2.4.2 关键配置参数

参数	说明	推荐值	原因
expire_on_commit	提交后是否过期对象属性	False	异步环境中避免意外 I/O
pool_size	连接池大小	5-20	平衡资源与并发
max_overflow	最大溢出连接数	10	应对突发流量
pool_pre_ping	连接前检查可用性	True	避免使用失效连接

expire_on_commit=False 的重要性:

默认情况下,SQLAlchemy 在 commit 后会过期(expire)所有对象属性。当你尝试访问这些属性时,会触发一次刷新查询。

在异步环境中,这可能导致 "greenlet_spawn has not been called" 错误,因为意外的 I/O 操作发生在非异步上下文中。

greenlet_spawn has not been called 这个错误通常出现在使用 OpenStack（特别是 Nova 或 Neutron 等组件）时，表示代码试图在一个没有正确初始化 greenlet 上下文的环境中使用协程（coroutine）或异步操作。

三、完整实现方案

3.1 环境准备与依赖安装

3.1.1 依赖包清单

# 核心框架
pip install langchain==0.2.0
pip install langchain-community==0.2.0
pip install langchain-chroma==0.1.2

# 异步数据库
pip install sqlalchemy==2.0.30
pip install aiosqlite==0.20.0  # SQLite 异步驱动
# 或者使用 PostgreSQL
pip install asyncpg==0.29.0     # PostgreSQL 异步驱动

# LLM 提供商(根据需要选择)
pip install langchain-openai==0.1.8
# pip install zhipuai==2.0.0  # 智谱 AI

# 向量数据库
pip install chromadb==0.4.24

# 文档处理
pip install beautifulsoup4==4.12.3
pip install lxml==5.2.2

# 工具库
pip install python-dotenv==1.0.1

3.1.2 环境配置

创建 .env 文件:

# LLM API 密钥
OPENAI_API_KEY=your_openai_key_here
# 或者
ZHIPUAI_API_KEY=your_zhipuai_key_here

# 数据库配置
DATABASE_URL=sqlite+aiosqlite:///./chat_history.db
# 或者 PostgreSQL
# DATABASE_URL=postgresql+asyncpg://user:password@localhost:5432/dbname

# 向量数据库
CHROMA_PERSIST_DIRECTORY=./chroma_db

3.2 数据库模型设计

3.2.1 定义 ORM 模型

from sqlalchemy import Column, Integer, String, Text, ForeignKey, DateTime
from sqlalchemy.orm import relationship, declarative_base
from sqlalchemy.ext.asyncio import AsyncAttrs
from datetime import datetime

Base = declarative_base()

class Session(AsyncAttrs, Base):
    """
    会话表 - 存储独立的对话会话
    
    设计考量:
    - 每个会话有唯一的 session_id,用于多用户隔离
    - 记录创建时间,便于清理过期会话
    """
    __tablename__ = "sessions"
    
    id = Column(Integer, primary_key=True, autoincrement=True)
    session_id = Column(String(255), unique=True, nullable=False, index=True)
    created_at = Column(DateTime, default=datetime.utcnow)
    
    # 关系:一个会话包含多条消息
    messages = relationship("Message", back_populates="session", 
                          cascade="all, delete-orphan")

class Message(AsyncAttrs, Base):
    """
    消息表 - 存储对话中的每条消息
    
    设计考量:
    - role 字段区分消息来源(user/assistant/system)
    - 保持消息顺序(通过 id 自增实现)
    - 记录时间戳用于分析对话流程
    """
    __tablename__ = "messages"
    
    id = Column(Integer, primary_key=True, autoincrement=True)
    session_id = Column(Integer, ForeignKey("sessions.id"), nullable=False)
    role = Column(String(50), nullable=False)  # 'user', 'assistant', 'system'
    content = Column(Text, nullable=False)
    created_at = Column(DateTime, default=datetime.utcnow)
    
    # 关系:消息属于某个会话
    session = relationship("Session", back_populates="messages")

AsyncAttrs 混入类的作用:

AsyncAttrs 是 SQLAlchemy 2.0 引入的特性,为 ORM 模型提供异步属性访问能力。它允许你使用 await model.awaitable_attrs.relationship_name 来异步加载关系。

3.2.2 数据库引擎配置

from sqlalchemy.ext.asyncio import create_async_engine, async_sessionmaker
from sqlalchemy.pool import AsyncAdaptedQueuePool
import os
from dotenv import load_dotenv

load_dotenv()

class DatabaseManager:
    """
    数据库管理器 - 单例模式
    
    职责:
    - 管理数据库引擎和会话工厂
    - 处理连接池配置
    - 提供会话上下文管理器
    """
    
    def __init__(self):
        self.engine = None
        self.session_factory = None
    
    async def initialize(self):
        """初始化数据库引擎和会话工厂"""
        database_url = os.getenv("DATABASE_URL")
        
        self.engine = create_async_engine(
            database_url,
            echo=False,  # 生产环境设为 False
            poolclass=AsyncAdaptedQueuePool,
            pool_size=5,  # 基础连接池大小
            max_overflow=10,  # 最大额外连接数
            pool_pre_ping=True,  # 使用前检查连接
            pool_recycle=3600,  # 1小时回收连接
        )
        
        # 创建异步会话工厂
        self.session_factory = async_sessionmaker(
            self.engine,
            class_=AsyncSession,
            expire_on_commit=False,  # 关键:防止异步环境中的意外 I/O
            autoflush=False,  # 手动控制刷新时机
        )
        
        # 创建所有表
        async with self.engine.begin() as conn:
            await conn.run_sync(Base.metadata.create_all)
    
    async def get_session(self):
        """获取数据库会话的异步上下文管理器"""
        async with self.session_factory() as session:
            try:
                yield session
            except Exception:
                await session.rollback()
                raise
            finally:
                await session.close()
    
    async def close(self):
        """关闭数据库引擎"""
        if self.engine:
            await self.engine.dispose()

# 全局数据库管理器实例
db_manager = DatabaseManager()

3.3 向量存储与检索器

3.3.1 自定义嵌入生成器

from zhipuai import ZhipuAI
from typing import List
import os

class CustomEmbeddingGenerator:
    """
    自定义嵌入生成器
    
    功能:
    - 适配不同的嵌入 API(OpenAI, 智谱等)
    - 提供统一的接口给 LangChain
    - 处理批量嵌入和单个查询
    """
    
    def __init__(self, model_name: str = "embedding-2", provider: str = "zhipu"):
        self.model_name = model_name
        self.provider = provider
        
        if provider == "zhipu":
            self.client = ZhipuAI(api_key=os.getenv("ZHIPUAI_API_KEY"))
        # 可扩展其他提供商
        
    def embed_documents(self, texts: List[str]) -> List[List[float]]:
        """
        批量生成文档嵌入
        
        参数:
            texts: 文本列表
        返回:
            嵌入向量列表
        """
        embeddings = []
        for text in texts:
            try:
                response = self.client.embeddings.create(
                    model=self.model_name,
                    input=text
                )
                if hasattr(response, 'data') and response.data:
                    embeddings.append(response.data[0].embedding)
                else:
                    # 失败时使用零向量占位
                    embeddings.append([0.0] * 1024)
            except Exception as e:
                print(f"嵌入生成失败: {e}")
                embeddings.append([0.0] * 1024)
        
        return embeddings
    
    def embed_query(self, query: str) -> List[float]:
        """
        生成单个查询的嵌入
        
        参数:
            query: 查询文本
        返回:
            嵌入向量
        """
        try:
            response = self.client.embeddings.create(
                model=self.model_name,
                input=query
            )
            if hasattr(response, 'data') and response.data:
                return response.data[0].embedding
        except Exception as e:
            print(f"查询嵌入生成失败: {e}")
        
        return [0.0] * 1024

3.3.2 文档索引流程

import bs4
from langchain_community.document_loaders import WebBaseLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_chroma import Chroma

async def build_vector_store():
    """
    构建向量存储
    
    流程:
    1. 加载文档源
    2. 文本分割
    3. 生成嵌入
    4. 存储到向量数据库
    """
    
    # 1. 加载文档
    loader = WebBaseLoader(
        web_paths=("https://lilianweng.github.io/posts/2023-06-23-agent/",),
        bs_kwargs=dict(
            parse_only=bs4.SoupStrainer(
                class_=("post-content", "post-title", "post-header")
            )
        ),
    )
    docs = loader.load()
    
    # 2. 文本分割
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,  # 每块1000字符
        chunk_overlap=200,  # 200字符重叠
        separators=["\n\n", "\n", " ", ""]  # 按段落、行、空格分割
    )
    splits = text_splitter.split_documents(docs)
    
    # 3. 初始化嵌入生成器
    embedding_generator = CustomEmbeddingGenerator()
    
    # 4. 创建向量存储
    vector_store = Chroma(
        collection_name="rag_collection",
        embedding_function=embedding_generator,
        persist_directory=os.getenv("CHROMA_PERSIST_DIRECTORY"),
        create_collection_if_not_exists=True
    )
    
    # 5. 添加文档到向量存储
    texts = [doc.page_content for doc in splits]
    metadatas = [doc.metadata for doc in splits]
    ids = vector_store.add_texts(texts=texts, metadatas=metadatas)
    
    print(f"已索引 {len(ids)} 个文档块")
    return vector_store

# 创建检索器
def create_retriever(vector_store, k=4):
    """
    创建检索器
    
    参数:
        vector_store: 向量存储实例
        k: 返回的文档数量
    """
    return vector_store.as_retriever(
        search_type="similarity",  # 或 "mmr"(最大边际相关性)
        search_kwargs={"k": k}
    )

3.4 异步 RAG 链构建

3.4.1 带历史记录的 RAG 链

from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from langchain_community.chat_models import ChatZhipuAI

class AsyncRAGChain:
    """
    异步 RAG 链管理器
    
    功能:
    - 集成检索和生成
    - 管理对话历史
    - 支持流式输出
    """
    
    def __init__(self, retriever, llm):
        self.retriever = retriever
        self.llm = llm
        self.chain = self._build_chain()
    
    def _build_chain(self):
        """构建完整的 RAG 链"""
        
        # 1. 上下文化提示模板
        contextualize_q_prompt = ChatPromptTemplate.from_messages([
            ("system", """给定聊天历史和最新的用户问题,
            该问题可能引用了聊天历史中的上下文,
            请重新表述一个独立的问题,使其无需聊天历史即可理解。
            不要回答问题,只在需要时重新表述,否则按原样返回。"""),
            MessagesPlaceholder("chat_history"),
            ("human", "{input}"),
        ])
        
        # 2. 问答提示模板
        qa_prompt = ChatPromptTemplate.from_messages([
            ("system", """你是一个问答助手。
            使用以下检索到的上下文来回答问题。
            如果你不知道答案,就说不知道。
            最多使用三句话,保持回答简洁。
            
            上下文: {context}"""),
            MessagesPlaceholder("chat_history"),
            ("human", "{input}"),
        ])
        
        # 3. 构建链
        def contextualize_question(input_dict):
            """根据是否有历史记录决定是否重构问题"""
            if input_dict.get("chat_history"):
                return contextualize_q_prompt | self.llm | StrOutputParser()
            else:
                return input_dict["input"]
        
        def format_docs(docs):
            """格式化检索到的文档"""
            return "\n\n".join(doc.page_content for doc in docs)
        
        # 完整链
        rag_chain = (
            RunnablePassthrough.assign(
                context=contextualize_question | self.retriever | format_docs
            )
            | qa_prompt
            | self.llm
            | StrOutputParser()
        )
        
        return rag_chain
    
    async def ainvoke(self, input_text: str, chat_history: list):
        """
        异步调用 RAG 链
        
        参数:
            input_text: 用户输入
            chat_history: 对话历史
        返回:
            AI 生成的回答
        """
        return await self.chain.ainvoke({
            "input": input_text,
            "chat_history": chat_history
        })
    
    async def astream(self, input_text: str, chat_history: list):
        """
        流式异步调用
        
        参数:
            input_text: 用户输入
            chat_history: 对话历史
        返回:
            异步生成器,逐块产生响应
        """
        async for chunk in self.chain.astream({
            "input": input_text,
            "chat_history": chat_history
        }):
            yield chunk

3.5 会话历史管理

3.5.1 数据库操作函数

from sqlalchemy import select
from langchain_core.messages import HumanMessage, AIMessage
from typing import List, Optional

async def save_message_async(
    session_id: str,
    role: str,
    content: str
):
    """
    异步保存消息
    
    参数:
        session_id: 会话 ID
        role: 消息角色
        content: 消息内容
    """
    async with db_manager.get_session() as db:
        # 查找或创建会话
        result = await db.execute(
            select(Session).where(Session.session_id == session_id)
        )
        session_obj = result.scalar_one_or_none()
        
        if not session_obj:
            session_obj = Session(session_id=session_id)
            db.add(session_obj)
            await db.flush()  # 获取 session_obj.id
        
        # 创建消息
        message = Message(
            session_id=session_obj.id,
            role=role,
            content=content
        )
        db.add(message)
        await db.commit()

async def load_session_history_async(
    session_id: str
) -> List:
    """
    异步加载会话历史
    
    参数:
        session_id: 会话 ID
    返回:
        LangChain 消息对象列表
    """
    async with db_manager.get_session() as db:
        # 查询会话
        result = await db.execute(
            select(Session).where(Session.session_id == session_id)
        )
        session_obj = result.scalar_one_or_none()
        
        if not session_obj:
            return []
        
        # 查询该会话的所有消息
        messages_result = await db.execute(
            select(Message)
            .where(Message.session_id == session_obj.id)
            .order_by(Message.id)
        )
        messages = messages_result.scalars().all()
        
        # 转换为 LangChain 消息对象
        chat_history = []
        for msg in messages:
            if msg.role == "user":
                chat_history.append(HumanMessage(content=msg.content))
            elif msg.role == "assistant":
                chat_history.append(AIMessage(content=msg.content))
        
        return chat_history

async def clear_session_async(session_id: str):
    """
    异步清空会话历史
    
    参数:
        session_id: 会话 ID
    """
    async with db_manager.get_session() as db:
        result = await db.execute(
            select(Session).where(Session.session_id == session_id)
        )
        session_obj = result.scalar_one_or_none()
        
        if session_obj:
            await db.delete(session_obj)  # 级联删除消息
            await db.commit()

3.6 完整应用示例

3.6.1 主应用逻辑

import asyncio
from langchain_community.chat_models import ChatZhipuAI

async def main():
    """主应用流程"""
    
    # 1. 初始化数据库
    await db_manager.initialize()
    
    # 2. 构建向量存储
    print("正在构建向量存储...")
    vector_store = await build_vector_store()
    retriever = create_retriever(vector_store, k=4)
    
    # 3. 初始化 LLM
    llm = ChatZhipuAI(
        model="glm-4",
        temperature=0.7,
        streaming=True  # 支持流式输出
    )
    
    # 4. 创建 RAG 链
    rag_chain = AsyncRAGChain(retriever, llm)
    
    # 5. 模拟对话
    session_id = "user_12345"
    
    # 第一轮对话
    question1 = "什么是任务分解?"
    chat_history = await load_session_history_async(session_id)
    
    print(f"\n用户: {question1}")
    answer1 = await rag_chain.ainvoke(question1, chat_history)
    print(f"AI: {answer1}")
    
    # 保存到数据库
    await save_message_async(session_id, "user", question1)
    await save_message_async(session_id, "assistant", answer1)
    
    # 第二轮对话(依赖历史上下文)
    question2 = "有哪些常见方法?"
    chat_history = await load_session_history_async(session_id)
    
    print(f"\n用户: {question2}")
    print("AI: ", end="", flush=True)
    
    # 使用流式输出
    # async for chunk in rag_chain.astream(question2, chat_history):
    #     print(chunk, end="", flush=True)
    # print()
    
    # 保存第二轮对话
    answer2 = ""
    async for chunk in rag_chain.astream(question2, chat_history):
        print(chunk, end="", flush=True)
        answer2 += chunk
    
    await save_message_async(session_id, "user", question2)
    await save_message_async(session_id, "assistant", answer2)
    
    # 6. 清理资源
    await db_manager.close()

if __name__ == "__main__":
    asyncio.run(main())

3.6.2 FastAPI 集成

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
from typing import Optional

app = FastAPI(title="异步 RAG API")

# 全局变量
rag_chain = None
retriever = None

class ChatRequest(BaseModel):
    session_id: str
    message: str
    stream: Optional[bool] = False

class ChatResponse(BaseModel):
    session_id: str
    answer: str

@app.on_event("startup")
async def startup_event():
    """应用启动时初始化"""
    global rag_chain, retriever
    
    await db_manager.initialize()
    vector_store = await build_vector_store()
    retriever = create_retriever(vector_store)
    
    llm = ChatZhipuAI(model="glm-4", temperature=0.7)
    rag_chain = AsyncRAGChain(retriever, llm)

@app.on_event("shutdown")
async def shutdown_event():
    """应用关闭时清理资源"""
    await db_manager.close()

@app.post("/chat", response_model=ChatResponse)
async def chat_endpoint(request: ChatRequest):
    """
    聊天端点
    
    处理流程:
    1. 加载会话历史
    2. 调用 RAG 链
    3. 保存对话记录
    4. 返回响应
    """
    try:
        # 加载历史
        chat_history = await load_session_history_async(request.session_id)
        
        # 生成回答
        answer = await rag_chain.ainvoke(request.message, chat_history)
        
        # 保存对话
        await save_message_async(request.session_id, "user", request.message)
        await save_message_async(request.session_id, "assistant", answer)
        
        return ChatResponse(
            session_id=request.session_id,
            answer=answer
        )
    
    except Exception as e:
        raise HTTPException(status_code=500, detail=str(e))

@app.post("/chat/stream")
async def chat_stream_endpoint(request: ChatRequest):
    """流式聊天端点"""
    from fastapi.responses import StreamingResponse
    
    async def generate():
        chat_history = await load_session_history_async(request.session_id)
        
        full_answer = ""
        async for chunk in rag_chain.astream(request.message, chat_history):
            full_answer += chunk
            yield f"data: {chunk}\n\n"
        
        # 保存完整对话
        await save_message_async(request.session_id, "user", request.message)
        await save_message_async(request.session_id, "assistant", full_answer)
    
    return StreamingResponse(generate(), media_type="text/event-stream")

@app.delete("/session/{session_id}")
async def clear_session_endpoint(session_id: str):
    """清空会话历史"""
    await clear_session_async(session_id)
    return {"message": "会话已清空"}

四、性能优化与最佳实践

4.1 数据库优化

4.1.1 索引策略

-- 为常用查询字段添加索引
CREATE INDEX idx_session_id ON sessions(session_id);
CREATE INDEX idx_message_session ON messages(session_id);
CREATE INDEX idx_message_created ON messages(created_at);

4.1.2 连接池调优

场景	pool_size	max_overflow	说明
低并发	5	5	节省资源
中并发	10	15	平衡性能与资源
高并发	20	30	最大化吞吐量

4.2 向量检索优化

4.2.1 分块策略

# 根据文档类型调整分块参数
chunk_configs = {
    "technical_doc": {
        "chunk_size": 800,
        "chunk_overlap": 200,
    },
    "conversation": {
        "chunk_size": 500,
        "chunk_overlap": 100,
    },
    "code": {
        "chunk_size": 1200,
        "chunk_overlap": 300,
    }
}

4.2.2 检索策略对比

策略	优势	劣势	适用场景
Similarity	速度快,结果相关	可能缺乏多样性	单一主题查询
MMR	结果多样化	计算开销大	探索性查询
Similarity Score Threshold	过滤低相关结果	可能漏掉有用信息	高精度要求

4.3 并发控制

4.3.1 使用信号量限制并发

import asyncio

# 限制同时处理的请求数
semaphore = asyncio.Semaphore(10)

async def process_with_limit(request):
    async with semaphore:
        return await process_request(request)

4.3.2 超时处理

async def chat_with_timeout(question, timeout=30):
    """带超时的聊天请求"""
    try:
        return await asyncio.wait_for(
            rag_chain.ainvoke(question, chat_history),
            timeout=timeout
        )
    except asyncio.TimeoutError:
        return "请求超时,请稍后重试"

4.4 错误处理与重试

from tenacity import (
    retry,
    stop_after_attempt,
    wait_exponential,
    retry_if_exception_type
)

@retry(
    stop=stop_after_attempt(3),
    wait=wait_exponential(multiplier=1, min=2, max=10),
    retry=retry_if_exception_type(Exception)
)
async def resilient_save_message(session_id, role, content):
    """带重试机制的消息保存"""
    await save_message_async(session_id, role, content)

五、监控与调试

5.1 日志记录

import logging
from datetime import datetime

# 配置日志
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler(f'rag_app_{datetime.now().strftime("%Y%m%d")}.log'),
        logging.StreamHandler()
    ]
)

logger = logging.getLogger(__name__)

# 在关键点添加日志
async def chat_with_logging(session_id, question):
    logger.info(f"会话 {session_id} 收到问题: {question}")
    
    start_time = datetime.now()
    answer = await rag_chain.ainvoke(question, chat_history)
    duration = (datetime.now() - start_time).total_seconds()
    
    logger.info(f"会话 {session_id} 生成答案,耗时: {duration:.2f}s")
    return answer

5.2 性能指标

关键指标监控:

指标	说明	目标值
响应时间	从请求到返回的延迟	< 3s
吞吐量	每秒处理请求数	> 50 req/s
数据库连接数	活跃数据库连接	< pool_size + max_overflow
检索相关性	检索结果的准确度	> 0.7

六、常见问题与解决方案

6.1 异步相关问题

问题 1: RuntimeError: This event loop is already running

原因: 尝试在已运行的事件循环中调用 asyncio.run()

解决方案:

# 错误
def some_function():
    asyncio.run(async_function())

# 正确
async def some_function():
    await async_function()

问题 2: greenlet_spawn has not been called

原因: SQLAlchemy 在异步上下文中尝试进行同步 I/O

解决方案:

# 设置 expire_on_commit=False
sessionmaker = async_sessionmaker(
    engine,
    expire_on_commit=False  # 关键配置
)

6.2 数据库相关问题

问题 3: 连接池耗尽

解决方案:

# 确保正确使用上下文管理器
async with db_manager.get_session() as session:
    # 所有数据库操作
    pass  # session 自动关闭

6.3 向量检索相关

问题 4: 检索结果不相关

优化策略:

调整 chunk_size 和 chunk_overlap
使用更好的嵌入模型
增加检索数量(k 值)
实现混合检索(关键词+向量)

七、总结与展望

7.1 核心要点回顾

本方案实现了一个异步 RAG 系统,核心特点包括:

异步架构: 全链路异步,充分利用 I/O 等待时间
持久化存储: SQLAlchemy 管理对话历史
向量检索: Chroma 提供高效的语义搜索
对话管理: 支持多轮对话和上下文记忆
生产就绪: 包含错误处理、日志、监控

7.2 性能对比

维度	同步方案	异步方案	提升
并发处理能力	10 req/s	50+ req/s	5x
平均响应时间	5s	2s	2.5x
资源利用率	60%	85%	1.4x
数据库连接数	每请求一个	连接池复用	节省90%

参考资料

官方文档

LangChain 官方文档 - RAG 教程与最佳实践
python.langchain.com/docs/tutori…
SQLAlchemy 异步文档 - AsyncIO 扩展使用指南
docs.sqlalchemy.org/en/20/orm/e…
Chroma 向量数据库文档 - 集成与优化指南
docs.trychroma.com/
FastAPI 官方文档 - 异步 Web 框架
fastapi.tiangolo.com/

技术博客

Retrieval-Augmented Generation: From Theory to Implementation - 深入解析 RAG 原理
medium.com/data-scienc…
Building Async RAG with LangChain and FastAPI - 实战经验分享
vitaliihonchar.com/insights/py…
Mastering LangChain RAG: Integrating Chat History - 对话历史管理
medium.com/@eric_vaill…

GitHub 资源

LangChain GitHub - 官方代码仓库与示例
github.com/langchain-a…
Chroma GitHub - 开源向量数据库实现
github.com/chroma-core…