第六届字节跳动青训营第三课（ai_模型IO_&_输出解析器）｜豆包MarsCode AI 刷题LangChain从入

LangChain 实战课: 05_ModelIO_OutputParser.py - MarsCode

六大组件

模型（Models） ，包含各大语言模型的LangChain接口和调用细节，以及输出解析机制。
提示模板（Prompts） ，使提示工程流线化，进一步激发大语言模型的潜力。
数据检索（Indexes） ，构建并操作文档的方法，接受用户的查询并返回最相关的文档，轻松搭建本地知识库。
记忆（Memory） ，通过短时记忆和长时记忆，在对话过程中存储和检索数据，让ChatBot记住你是谁。
链（Chains） ，是LangChain中的核心机制，以特定方式封装各种功能，并通过一系列的组合，自动而灵活地完成常见用例。
代理（Agents） ，是另一个LangChain中的核心机制，通过“代理”让大模型自主调用外部工具和内部工具，使强大的“智能化”自主Agent成为可能！

其中，Indexes是LangChang早期版本的一个组件，现在已经被整合到Retrieval（数据检索）这个单元中了。而Retrieval（包括Indexes），讲的其实就是如何把离散的文档及其他信息做嵌入，存储到向量数据库中，然后再提取的过程。

模型IO

对模型的使用过程拆解成三块，分别是输入提示（对应图中的Format）、调用模型（对应图中的Predict）和输出解析（对应图中的Parse）。这三块形成了一个整体，因此在LangChain中这个过程被统称为 Model I/O（Input/Output）。

LangChain中支持的模型有三大类。

大语言模型（LLM），也叫Text Model，这些模型将文本字符串作为输入，并返回文本字符串作为输出。Open AI的text-davinci-003、Facebook的LLaMA、ANTHROPIC的Claude，都是典型的LLM。
聊天模型（Chat Model），主要代表Open AI的ChatGPT系列模型。这些模型通常由语言模型支持，但它们的 API 更加结构化。具体来说，这些模型将聊天消息列表作为输入，并返回聊天消息。
文本嵌入模型（Embedding Model），这些模型将文本作为输入并返回浮点数列表，也就是Embedding。而文本嵌入模型如OpenAI的text-embedding-ada-002，我们之前已经见过了。文本嵌入模型负责把文档存入向量数据库，和我们这里探讨的提示工程关系不大。

输出解析器

输出解析器是一种专用于处理和构建语言模型响应的类。一个基本的输出解析器类通常需要实现两个核心方法。

get_format_instructions：这个方法需要返回一个字符串，用于指导如何格式化语言模型的输出，告诉它应该如何组织并构建它的回答。
parse：这个方法接收一个字符串（也就是语言模型的输出）并将其解析为特定的数据结构或格式。这一步通常用于确保模型的输出符合我们的预期，并且能够以我们需要的形式进行后续处理。

还有一个可选的方法。

parse_with_prompt：这个方法接收一个字符串（也就是语言模型的输出）和一个提示（用于生成这个输出的提示），并将其解析为特定的数据结构。这样，你可以根据原始提示来修正或重新解析模型的输出，确保输出的信息更加准确和贴合要求。

class OutputParser:
    def __init__(self):
        pass

    def get_format_instructions(self):
        # 返回一个字符串，指导如何格式化模型的输出
        pass

    def parse(self, model_output):
        # 解析模型的输出，转换为某种数据结构或格式
        pass

    def parse_with_prompt(self, model_output, prompt):
        # 基于原始提示解析模型的输出，转换为某种数据结构或格式
        pass

解析器类型

列表解析器（List Parser）：这个解析器用于处理模型生成的输出，当需要模型的输出是一个列表的时候使用。例如，如果你询问模型“列出所有鲜花的库存”，模型的回答应该是一个列表。
日期时间解析器（Datetime Parser）：这个解析器用于处理日期和时间相关的输出，确保模型的输出是正确的日期或时间格式。
枚举解析器（Enum Parser）：这个解析器用于处理预定义的一组值，当模型的输出应该是这组预定义值之一时使用。例如，如果你定义了一个问题的答案只能是“是”或“否”，那么枚举解析器可以确保模型的回答是这两个选项之一。
结构化输出解析器（Structured Output Parser）：这个解析器用于处理复杂的、结构化的输出。如果你的应用需要模型生成具有特定结构的复杂回答（例如一份报告、一篇文章等），那么可以使用结构化输出解析器来实现。
Pydantic（JSON）解析器：这个解析器用于处理模型的输出，当模型的输出应该是一个符合特定格式的JSON对象时使用。它使用Pydantic库，这是一个数据验证库，可以用于构建复杂的数据模型，并确保模型的输出符合预期的数据模型。
自动修复解析器（Auto-Fixing Parser）：这个解析器可以自动修复某些常见的模型输出错误。例如，如果模型的输出应该是一段文本，但是模型返回了一段包含语法或拼写错误的文本，自动修复解析器可以自动纠正这些错误。
重试解析器（RetryWithErrorOutputParser）：这个解析器用于在模型的初次输出不符合预期时，尝试修复或重新生成新的输出。例如，如果模型的输出应该是一个日期，但是模型返回了一个字符串，那么重试解析器可以重新提示模型生成正确的日期格式。

在LangChain 实战课: 05_ModelIO_OutputParser.py - MarsCode中，使用的就是结构化输出解析器。

response_schemas = [
    ResponseSchema(name="description", description="鲜花的描述文案"),
    ResponseSchema(name="reason", description="问什么要这样写这个文案"),
]
output_parser = StructuredOutputParser.from_response_schemas(response_schemas)
//中间略
    parsed_output = output_parser.parse(output.content)
    print(parsed_output)

Pydantic（JSON）解析器实战

使用Json解析器的步骤如下：

定义一个Pydantic BaseModel类。
获取输出格式指示

output_parser = PydanticOutputParser(pydantic_object=刚才的类名) 
format_instructions = output_parser.get_format_instructions()

定义提示模板并加入输出解析器

prompt = PromptTemplate.from_template(prompt_template,
         partial_variables={"format_instructions": format_instructions})

获取输入，代入模型。

prompt.format(flower=flower, price=price)

自动修复解析器（OutputFixingParser）实战

如果Pydantic（JSON）解析器设置时出现错误，直接解析会报错，可以调用自动修复解析器进行修复。第二个参数指的是用来修复错误所调用的模型类型，之后可以调用新的解析器解析输出。

new_parser = OutputFixingParser.from_llm(
    parser=parser,
    llm=ChatOpenAI(
        model=os.environ.get("LLM_MODELEND"),
    ),
)

重试解析器（RetryWithErrorOutputParser）实战

如果出错的不只是格式，比如，输出根本不完整，有缺失内容，那么仅仅根据输出和格式本身，自动修复解析器（OutputFixingParser）是无法修复它的。

当输入的参数数量不够时，使用自动修复解析器（OutputFixingParser）无法解决问题，可以尝试重试解析器（RetryWithErrorOutputParser）。

retry_parser = RetryWithErrorOutputParser.from_llm(     
    parser=parser, llm=OpenAI(temperature=0) )

AIA

直接把佬的话拷过来了

结构化解析器和Pydantic解析器都旨在从大型语言模型中获取格式化的输出。结构化解析器更适合简单的文本响应，而Pydantic解析器则提供了对复杂数据结构和类型的支持。选择哪种解析器取决于应用的具体需求和输出的复杂性。

自动修复解析器主要适用于纠正小的格式错误，它更加“被动”，仅在原始输出出现问题时进行修复。重试解析器则可以处理更复杂的问题，包括格式错误和内容缺失。它通过重新与模型交互，使得输出更加完整和符合预期。

第六届字节跳动青训营第三课（ai_模型IO_&_输出解析器） ｜ 豆包MarsCode AI 刷题