如何轻松加载Google Cloud Storage目录中的文档对象

69 阅读2分钟

引言

Google Cloud Storage(GCS)是一个用于存储非结构化数据的托管服务。本文旨在介绍如何从GCS目录(或称为桶)加载文档对象。我们将探讨如何使用GCSDirectoryLoader库加载文档,并解决常见问题。

主要内容

安装必要的库

在开始加载GCS目录中的文档之前,我们需要安装适合的Python库:

%pip install --upgrade --quiet langchain-google-community[gcs]

使用GCSDirectoryLoader加载文档

GCSDirectoryLoader是我们使用的主要工具。下面的代码展示了如何从GCS桶加载文档:

from langchain_google_community import GCSDirectoryLoader

# 实例化加载器,指定项目名称和GCS桶名称
loader = GCSDirectoryLoader(project_name="aist", bucket="testing-hwc")

# 加载文档
documents = loader.load()
print(documents)

运行上面的代码可能会显示如下警告信息:

UserWarning: Your application has authenticated using end user credentials from Google Cloud SDK without a quota project.

这种情况下,建议使用服务账户进行身份验证,以避免配额超限或API未启用的错误。

指定前缀以加载特定文件

可以指定一个前缀以更精细地控制要加载的文件。例如,加载特定文件夹下的所有文件:

loader = GCSDirectoryLoader(project_name="aist", bucket="testing-hwc", prefix="fake")
documents_with_prefix = loader.load()
print(documents_with_prefix)

继续处理加载错误

GCS桶中的文件在处理过程中可能会导致错误。通过设置continue_on_failure=True,可以在遇到单个文件处理失败时不中断整个加载过程。

loader = GCSDirectoryLoader(
    project_name="aist", bucket="testing-hwc", continue_on_failure=True
)

documents_with_failure_handling = loader.load()
print(documents_with_failure_handling)

常见问题和解决方案

  1. 身份验证问题:如前述警告所示,建议使用服务账户进行身份验证。有关更多详情,请参考Google Cloud身份验证文档

  2. 文件加载失败:检查文件格式是否支持,并启用continue_on_failure=True以处理错误。

总结和进一步学习资源

本文介绍了如何使用GCSDirectoryLoader从Google Cloud Storage加载文档对象。为了深入学习Google Cloud和文档加载技术,您可以参考以下资源:

参考资料

  1. Google Cloud Storage 官方文档: Google Cloud Storage
  2. Langchain文档库: Langchain Document Loaders

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---