利用Google Cloud SQL管理Langchain文档的高效方法

45 阅读3分钟

引言

在当今的数据驱动世界中,处理和管理文档成了许多企业运营的重要组成部分。而Google Cloud SQL作为一种完全托管的关系数据库服务,以其高性能、无缝集成和强扩展性而闻名。特别是通过其对SQL Server数据库引擎的支持,使开发者能够更加高效地管理数据和构建AI驱动的体验。本文旨在探讨如何使用Google Cloud SQL for SQL Server,通过MSSQLLoader和MSSQLDocumentSaver来保存、加载和删除Langchain文档。

主要内容

环境准备

在开始之前,确保完成以下步骤:

  1. 创建一个Google Cloud项目。
  2. 启用Cloud SQL Admin API。
  3. 创建一个Cloud SQL for SQL Server实例与数据库。
  4. 向数据库中添加IAM用户(可选)。

您还需要配置以下参数以便在使用Notebook时访问数据库:

# 请填入您的Google Cloud区域和Cloud SQL实例的名称
REGION = "us-central1"  # @param {type:"string"}
INSTANCE = "test-instance"  # @param {type:"string"}

# 请填入Cloud SQL实例的用户名和密码
DB_USER = "sqlserver"  # @param {type:"string"}
DB_PASS = "password"  # @param {type:"string"}

# 请指定一个演示用的数据库和表
DATABASE = "test"  # @param {type:"string"}
TABLE_NAME = "test-default"  # @param {type:"string"}

连接Google Cloud项目

首先,确保您已认证为拥有该Notebook访问权的IAM用户,并设置您的Google Cloud项目以利用Google Cloud资源:

PROJECT_ID = "my-project-id"  # @param {type:"string"}
!gcloud config set project {PROJECT_ID}
!gcloud services enable sqladmin.googleapis.com

MSSQL引擎连接池配置

在保存或加载文档之前,我们需要配置一个SQLAlchemy连接池用于Cloud SQL数据库。

from langchain_google_cloud_sql_mssql import MSSQLEngine

engine = MSSQLEngine.from_instance(
    project_id=PROJECT_ID,
    region=REGION,
    instance=INSTANCE,
    database=DATABASE,
    user=DB_USER,
    password=DB_PASS,
)

代码示例

以下是如何使用MSSQLDocumentSaver保存Langchain文档的示例:

from langchain_core.documents import Document
from langchain_google_cloud_sql_mssql import MSSQLDocumentSaver

test_docs = [
    Document(page_content="Apple Granny Smith 150 0.99 1", metadata={"fruit_id": 1}),
    Document(page_content="Banana Cavendish 200 0.59 0", metadata={"fruit_id": 2}),
    Document(page_content="Orange Navel 80 1.29 1", metadata={"fruit_id": 3}),
]

saver = MSSQLDocumentSaver(engine=engine, table_name=TABLE_NAME)
saver.add_documents(test_docs)

# 使用API代理服务提高访问稳定性

常见问题和解决方案

挑战:网络连接不稳定

许多开发者可能会遇到网络连接不稳定的问题,尤其是当API调用涉及到区域性限制时。解决方案包括:

  • 使用API代理服务,以改善服务访问的稳定性。这可以通过配置代理服务器来实现。

挑战:文档加载效率

在大型数据库中,加载速度可能会受到影响。解决方案是:

  • 使用MSSQLLoader.lazy_load()方法,它返回一个生成器,只在遍历时查询数据库,从而优化性能。

总结和进一步学习资源

Google Cloud SQL for SQL Server通过集成Langchain的功能,提供了一个强大的平台来管理文档。对于想深入探索的读者,可以参考以下资源:

参考资料

  1. Langchain GitHub: Langchain on GitHub
  2. Google Cloud: Cloud SQL Documentation

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力! ---END---