AI实践：回调函数和异步编程 | 豆包MarsCode AI刷题回调函数和异步编程总结在 LangChain 中，回调

回调函数和异步编程总结

在 LangChain 中，回调函数和异步编程使得复杂任务更加高效。回调函数用于跟踪和控制模型行为，例如监控 API 调用、令牌消耗、输出流等。通过自定义回调，可以实时响应生成过程，例如将输出流式传输到客户端或控制台。异步编程则提升了并发性能，尤其适用于处理多个请求或快速响应。通过 async/await 关键字，LangChain 能在等待模型响应时执行其他任务，使应用更高效。

在 LangChain 中，Callback 处理器是一种用于管理和监控语言模型生成过程的工具。通过回调处理器，开发者可以捕获每个生成步骤中的信息，例如令牌数量、模型响应、生成时间等，方便优化和调试。回调处理器的典型应用包括：

监控和记录令牌使用：跟踪 API 调用中的令牌消耗，有助于控制成本。
流式输出：回调允许在生成过程中逐步接收输出，适合实时更新界面或传输数据。
自定义响应处理：如在生成每个 token 时发送数据到 WebSocket，以实现更好的用户体验。
错误管理：处理生成过程中遇到的错误，触发通知或异常处理。

回调处理器在 LangChain 中继承自 BaseCallbackHandler，开发者可以自定义不同类型的回调函数，将其传递给链式调用方法中，如 run、apply 或 call，从而将生成流程细化到所需的颗粒度，提升应用的控制力和反馈响应速度。

思考题 1: 将 `get_openai_callback` 实现到其他记忆机制中

在LangChain中，get_openai_callback 是用来跟踪 OpenAI API 请求的令牌使用情况的，通常被用于 ConversationBufferMemory 中。如果希望将这种令牌计数器功能集成到其他记忆机制（如 ConversationSummaryMemory 或 ConversationKGMemory）中，可以考虑以下几个步骤：

在记忆类中添加回调机制： 创建一个通用的令牌计数回调，并在每次调用生成记忆的过程中使用它。例如，可以定义一个类属性来初始化回调，以便将所有生成过程中的令牌使用情况存储和监控。
将回调机制应用到所有内存模块： 重写相关内存机制的 save_context 或 load_memory_variables 方法，在这些方法中调用生成逻辑时加入 get_openai_callback，这样可以在运行时实时追踪并存储令牌使用信息。

以下是一个将令牌计数功能应用于 ConversationSummaryMemory 的示例代码：

from langchain.memory import ConversationSummaryMemory
from langchain.callbacks import get_openai_callback

class TokenTrackedSummaryMemory(ConversationSummaryMemory):
    def save_context(self, inputs, outputs):
        # 使用 get_openai_callback 跟踪令牌
        with get_openai_callback() as cb:
            super().save_context(inputs, outputs)
            self.token_usage = cb.total_tokens  # 存储令牌使用情况

    def get_token_usage(self):
        return getattr(self, 'token_usage', 0)

这样，每次 save_context 被调用时，都会使用回调监控令牌使用情况，并将总数记录下来。其他记忆机制可以用类似方式来跟踪令牌使用情况。

思考题 2: 在 `run/apply` 方法中引入回调机制以实现流式传输

流式传输的实现使得我们可以在数据生成时就开始处理，这在大语言模型和对话系统中非常有用。LangChain 的回调机制可以用于实现这种流式传输，通过在 run/apply 方法中引入回调机制，实时将生成的内容发送到指定的目的地（例如 WebSocket 或控制台）。

以下是如何在 run/apply 方法中加入回调机制的示例代码：

from langchain.callbacks.base import BaseCallbackHandler
from typing import Any, Dict, List

# 自定义回调处理器，将生成的输出流式传输
class StreamingCallbackHandler(BaseCallbackHandler):
    def __init__(self, websocket):
        self.websocket = websocket  # 用于传输数据的 WebSocket

    def on_llm_new_token(self, token: str, **kwargs: Any) -> None:
        # 每生成一个新的 token，就通过 websocket 发送
        self.websocket.send(token)

# 在请求过程中引入回调机制
def run_with_streaming(callback_handler, input_data):
    # 示例 LangChain 请求方法
    llm = ...  # 初始化你的语言模型
    memory = ...  # 初始化记忆机制
    response = llm(input_data, callbacks=[callback_handler])  # 加入自定义回调
    return response

在此代码中，我创建了一个 StreamingCallbackHandler，它继承自 BaseCallbackHandler，并重写了 on_llm_new_token 方法，这样每生成一个新的 token，就会调用 websocket.send 发送到 WebSocket，实现实时流式传输。通过在 run 方法调用模型时传入 callbacks 参数，可以在生成数据的过程中不断触发回调，将内容流式传输到客户端。

这种流式传输方法的优势在于，它允许我们不必等待所有输出生成完毕，即可实时获取模型生成的数据，非常适合对响应速度要求高的应用场景，如聊天机器人或实时翻译等系统。

AI实践：回调函数和异步编程 | 豆包MarsCode AI刷题

回调函数和异步编程总结

思考题 1: 将 get_openai_callback 实现到其他记忆机制中

思考题 2: 在 run/apply 方法中引入回调机制以实现流式传输

思考题 1: 将 `get_openai_callback` 实现到其他记忆机制中

思考题 2: 在 `run/apply` 方法中引入回调机制以实现流式传输