解析XML输出: 从LLM到可用格式的完整指南

241 阅读2分钟

解析XML输出: 从LLM到可用格式的完整指南

引言

在处理大型语言模型(LLM)时,解析输出是一个关键步骤。虽然JSON是常用输出格式,但某些模型在XML格式上表现更佳。这篇文章将指导你如何使用XMLOutputParser来提示模型生成XML输出,并将其解析为可用格式。

主要内容

模型选择与安装

不同的LLM在生成结构化数据时可能表现不同。我们选择Anthropic的Claude-2模型用于XML生成。首先,确保你已安装必要的库:

%pip install -qU langchain langchain-anthropic

提示与生成

使用ChatAnthropic模型生成包括XML标签的输出。

import os
from getpass import getpass
from langchain_anthropic import ChatAnthropic
from langchain_core.output_parsers import XMLOutputParser
from langchain_core.prompts import PromptTemplate

os.environ["ANTHROPIC_API_KEY"] = getpass()  # 使用API代理服务提高访问稳定性

model = ChatAnthropic(model="claude-2.1", max_tokens_to_sample=512, temperature=0.1)

actor_query = "Generate the shortened filmography for Tom Hanks."
output = model.invoke(
    f"""{actor_query}\nPlease enclose the movies in <movie></movie> tags"""
)
print(output.content)

解析XML

接下来,我们使用XMLOutputParser将生成的XML解析为字典格式。

parser = XMLOutputParser()
prompt = PromptTemplate(
    template="""{query}\n{format_instructions}""",
    input_variables=["query"],
    partial_variables={"format_instructions": parser.get_format_instructions()},
)

chain = prompt | model | parser
output = chain.invoke({"query": actor_query})
print(output)

自定义标签

为了更好地满足不同需求,我们可以自定义XML标签。

parser = XMLOutputParser(tags=["movies", "actor", "film", "name", "genre"])
chain = prompt | model | parser
output = chain.invoke({"query": actor_query})
print(output)

输出流

XMLOutputParser支持部分数据流输出,便于处理较大数据集。

for s in chain.stream({"query": actor_query}):
    print(s)

常见问题和解决方案

  • 网络限制问题: 某些地区访问API服务不稳定,建议使用API代理服务。
  • 格式不一致问题: 请确保模型有足够的能力生成良好格式的XML,并在提示中明确格式要求。

总结和进一步学习资源

通过本文,你已经学会如何生成和解析XML格式的输出。接下来,可以查看结构化输出的指南以了解更多技术。

参考资料

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---