从 0 到 1 实现流式输出：LLM 聊天机器人的全栈技术拆解 🧩在 AI 技术爆发的浪潮中，从 2023 年的 LL

一、为什么流式输出是 2025 年大厂必考题？ 📈

在 AI 技术爆发的浪潮中，从 2023 年的 LLM 聊天机器人爆款，到 2024 年的推理优化，再到 2025 年被预言的 AI Agent 元年，流式输出始终是衡量前端工程师技术深度的关键指标。它不仅仅是一种技术实现，更是对用户心理的精准把握 —— 当 LLM 需要逐个 token 生成内容时，"边生成边展示" 的方式能极大降低用户的等待焦虑，这也是为什么大厂面试中反复出现这类考题。

二、流式输出的核心价值：不止是 "快" 🚀

1. 技术本质：突破 HTTP 的局限

传统 HTTP 是 "请求 - 响应" 模式，一次交互后连接断开；而流式输出通过长连接让服务器持续推送数据，完美适配 LLM"token 级生成" 的特性（类似 Google Transformer 模型的逐词生成逻辑）。

2. 用户体验：心理层面的 "障眼法"

无需等待完整内容生成，用户能实时看到进度
感知响应速度远快于实际生成速度（心理学上的 "渐进式满足"）
对 token 成本敏感的场景（如 API 按 token 计费），可提前中断无效生成

三、前端实现：用 SSE 接收流式数据 🌐

1. HTML 结构：极简的展示层

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>LLM Chatbot</title>
</head>
<body>
    <h1>流式输出演示 📡</h1>
    <div id="messages"></div> <!-- 用于展示流式数据的容器 -->
    <script>
        // 核心逻辑在这里
    </script>
</body>
</html>

2. JavaScript 核心：EventSource API

// 建立与后端SSE接口的长连接
const source = new EventSource('/sse');

// 监听服务器推送的消息
source.onmessage = function(event) {
    // 从event.data中提取服务器发送的内容
    const messagesContainer = document.getElementById('messages');
    // 追加新内容并换行
    messagesContainer.innerHTML += event.data + `<br>`;
};

关键细节：

EventSource是 HTML5 原生 API，专门用于接收服务器推送的事件流
自动重连机制：当连接断开时，浏览器会自动尝试重新连接
只能接收 GET 请求，适合单向的服务器→客户端数据推送

四、后端实现：用 Express 搭建推送服务 🖥️

1. 项目初始化与依赖

npm init -y
npm i express  # 轻量的Node.js Web框架

2. 核心路由设计

① 静态页面路由（返回前端页面）

const express = require('express');
const app = express();

// 访问根路径时，返回index.html
app.get('/', (req, res) => {
    // __dirname为当前文件所在目录的绝对路径
    res.sendFile(__dirname + '/index.html');
});

② SSE 流式推送路由

app.get('/sse', (req, res) => {
    // 关键响应头配置
    res.set({
        'Content-Type': 'text/event-stream',  // 声明为事件流类型
        'Cache-Control': 'no-cache',          // 禁止缓存，确保实时性
        'Connection': 'keep-alive'            // 保持长连接
    });
    res.flushHeaders();  // 立即发送响应头，建立连接

    // 定时推送数据（模拟LLM生成过程）
    setInterval(() => {
        const message = `Current Time is ${new Date().toLocaleTimeString()}`;
        // SSE数据格式：必须以"data:"开头，"\n\n"结尾
        res.write(`data:${message}\n\n`);
    }, 1000);
});

3. 启动服务器

const http = require('http').Server(app);
http.listen(1314, () => {
    console.log('Server running on http://localhost:1314');
});

五、全栈协作原理：数据流转的完整链路 🔄

前端触发：用户打开页面，EventSource('/sse')向服务器发起长连接请求
后端响应：/sse路由返回特殊响应头，确立 "事件流" 传输模式
持续推送：后端通过setInterval定时生成数据，用res.write推送到前端
前端渲染：onmessage事件监听数据，实时更新 DOM 展示内容
连接保持：Connection: keep-alive确保 TCP 连接不中断，实现 "流式" 体验

六、实际应用：对接 LLM API 的注意事项 ⚠️

数据格式适配：LLM API 返回的 token 流需包装为 SSE 格式（data:${token}\n\n）
错误处理：添加source.onerror监听连接异常，实现自动重连
性能优化：
- 前端避免频繁 DOM 操作（可先缓存再批量更新）
- 后端控制推送频率（根据 LLM 生成速度动态调整）
中断机制：用户关闭页面时，后端需清除定时器释放资源

七、总结：流式输出的技术本质 🎯

流式输出的核心是打破传统 HTTP 的 "一次性响应" 模式，通过长连接实现服务器到客户端的持续数据传输。对于前端工程师而言，掌握 SSE 不仅能应对 LLM 场景，更能提升在实时日志、监控面板等场景的技术储备。2025 年的 AI 时代，理解 "如何让用户更舒适地等待"，将成为前端体验优化的重要课题。