摘要
在生产环境中部署大型语言模型(LLM)面临“质量—延迟—成本”的三角困境。单纯上更大的模型常导致成本失控与难以接受的 P95 尾部延迟。为此本文提出三段式智慧管线(Three-Stage Sentry, TSG):(1) 轻量级请求规划器(Request Planner)预估复杂度并生成回答骨架;(2) 品质感知路由器(Quality-Aware Router, QAR)将请求派发到轻/标准/增强多级服务;(3) 受控执行器(Controlled Executor)在生成过程中做即时自检,并按策略进行同层修复 → 受控升级。
我们配套了一套可审计的统计度量协议:在质量主指标上执行分层 TOST(两单侧,q=10\%预注册),并在家族 A 采用 BH-95(q=10\%)控制 FDR;同时以 CO-corrected 的 P95 作为主判护栏(家族 B),并披露删失口径(KM & SLO-cap)。在商用 GPU(RTX 2060S,自托管推理口径)与千问 3(Qwen3)模型家族上的复现实验显示:P50 端到端延迟降低 58.8%(2638.26→1087.59 ms),平均计算时长(≈GPU-ms/req)降低 42.5%(2054.10→1180.41 ms),昂贵路径触发率r_{\text{costly}}从 100% 压到 29.3%;CO-corrected overall P95 改善 3.6%(2780.64→2681.45 ms,满足 +10% 护栏),质量 TOST 非劣 + FDR 通过。
为保证可重现性,报告统一并列 Raw/CO × Overall/Warm-only 四口径,固定披露 timeouts_rate 与 censoring_mode(KM & SLO-cap),并在表注落指纹(tdigest_compression/version、warmup_window_ms、co_correction 等)。
1. 绪论
大型语言模型(LLM)的普及带来变革性能力,但在真实世界的大规模服务中仍面临工程挑战:既要守住用户感知质量,又要兼顾低延迟与合理成本。由于模型能力与计算足迹近似正相关,简单地为所有流量部署“最大最强”模型往往导致营运支出膨胀与 P95 尾延失控。我们主张在模型前采用一个模型无关的网关,对每个请求进行前瞻性分析与分流,以在质量与尾部延迟硬约束下,给到刚好足够的资源。
本文贡献:
2. 相关研究
级联与专家混合。FrugalGPT 展示了通过级联与判断器降本的潜力。我们的工作在生产口径上补齐:将 TOST 非劣与 CO-corrected P95 护栏纳入硬约束,并引入同层修复/受控升级的执行模型。高效推理系统。 vLLM 等系统通过内存与调度优化提升吞吐;TSG 与此正交,通过避免不必要计算与受控升级进一步降低尾延与成本。
线上实验与统计严谨性。 我们采用 TOST(Schuirmann 1987)做非劣/等效判定,并使用 BCa-Bootstrap 与(可选)MBB 处理依赖,辅以家族化 FDR 控制多重比较;删失场景下并列 KM-Bootstrap 与 SLO-cap。这些做法已在规范与脚本中固化为家族 A/B/C 三类检验。
3. 三段式智慧管线架构
3.1 形式化与约束
给定请求分布 ,寻找策略 (模型选择、量化、温度等配置)以最小化期望成本 ,约束为:
质量非劣(主指标):对每个关键分层 执行 TOST 两单侧,边界 预注册;家族 A 统一用 BH-95, 控制 FDR。任何关键层未过即总体失败。
P95 护栏(家族 B):以 CO-corrected 为主判,要求 并在 Overall/Warm-only 双口径均满足(默认 )。
JSON 合规(家族 C):失败率 的硬约束,未达标进入 SafePath/重试。
以上检验在脚本中以 HD+BCa(离线)/ t-digest(在线)统一实现,并把 tdigest_compressiontdigest_version 写入指标指纹。
说明(口径统一):报告 P95 四口径并列:Raw/CO × Overall/Warm-only,并固定披露 timeouts_rate 与 censoring_mode(KM / SLO-cap);主判基于 CO-corrected。
3.2 成本分解与符号
我们采用三路径成本模型:
在三路径场景 下,昂贵路径集合 ,故。其中 为规划/路由/自检/编排/网络等非推理开销;自托管口径报告 GPU-ms/req(推理)+ Overhead;API 口径报告 1k-token 计费/调用费/SLA 罚金/最小计费粒度,并把计费版本写入指纹。
3.3 阶段一:请求规划器
规划器对输入做快速特征化,输出 JudgeReport(复杂度分数、回答骨架、风险因子)。复杂度分数采用与脚本一致的启发式线性模型:
并据此参与路径判定;默认阈值 thr_std=0.40、thr_enh=0.85,同时保留 fast-lane(极短或极低分直接走 light)。实现与 bench_ollama_3stage.py 的 plan/route 完全一致。
3.4 阶段二:品质感知路由器(QAR)
路由器以 score 与风险因子决定初始路径(light/std/enh),并结合任务“楼层”策略(如 JSON/代码任务下限不低于 std)与最大升级次数限制(默认 2)。该策略以可解释规则为主导,复杂度阈值与“楼层”均在脚本参数中可复现。
3.5 阶段三:受控执行器
执行器流程为:初次生成 → 同层修复(一次)→ 受控升级(若必要)。升级到 enh 受 max_upgrades 约束,拒绝/超时等异常会记录为事件,供删失与 ITT 指标使用(见 §4)。该逻辑在脚本中与 JSON 合同校验、拒绝检测与节拍期补齐(CO)共同实现。
4. 评测方法与指标(统一口径,可审计)
4.1 指标与主判
- 质量(主指标):对每个关键层(
task/ctx_bucket/tool_use/provider/region/cold_warm/cache_hit)做 TOST 两单侧,$\varepsilon$ 在注册清单中固定。对每层的两单侧检验获得的 $p$ 值集合按 BH-95($q=10\%$)控制 FDR(家族 A),逐层判定后再汇总。脚本输出层级 CI、两单侧 $p$ 值、FDR 结果,并附 post-hoc 功效与样本量参考。 - 延迟(护栏):CO-corrected P95 为主判;Raw/CO × Overall/Warm-only 四口径并列展示,并固定披露
timeouts_rate与censoring_mode(KM / SLO-cap)。脚本内置 t-digest(在线)、HD+BCa(离线)与 KM-Bootstrap。默认tdigest_compression=200、p95_delta=0.10。 - 成本:以 Avg eval ms(≈GPU-ms/req) 为自托管代理,并报告 $r_{\text{costly}}$;API 口径另并列 $/req$。
- 合规:JSON 失败率 $\le 0.5\%$ 作为硬门(家族 C),未通过即 Fail。
事件与指纹 Schema(表注固定项):co_correction、tdigest_compression、tdigest_version、warmup_window_ms、billing_version、right_censored、user_tenant 等都会写入汇总与事件工件,便于回放与对账。产物包含 metrics_summary.parquet、tests_family_{A,B,C}.csv、bootstrap_meta.json、seed_manifest.txt 与全量 events.jsonl。
4.2 口径与删失披露
四口径并列是报告强制项:Raw-Overall / Raw-Warm / CO-Overall / CO-Warm;并在 Warm-only 下同时给出 KM 与 SLO-cap 两套数值与 timeouts_rate。该规范已在技术文档与脚本中对齐,并在看板模板中固化。
4.3 ITT/重试与拒绝率
重试率 retry_rate_pct 与拒绝率 refusal_rate_pct 由脚本按 warm 样本自动统计与输出;对外不手写常数,直接使用脚本产物填表(避免与实际配置漂移)。
5. 实验设置
模型与硬件:我们使用了一个由三个通义千问 3 (Qwen3) 模型组成的模型集群:qwen3:0.6b(轻量级)、qwen3:1.7b(标准)和 qwen3:4b(增强)。所有实验均在配备 NVIDIA RTX 2060 SUPER GPU 的单机上运行。
数据集:我们构建了一个包含 200 个多样化请求的数据集(排除预热样本后,有效评估样本为 $N_{eval}=198$),旨在涵盖不同复杂度并要求结构化(JSON)输出。
基线与实验组:
- 基线 (
Baseline_enh):一种简单的服务策略,所有 198 个请求都直接发送给最强大的模型(qwen3:4b)。 - 实验组 (
Gateway_3stage):我们提出的 TSG 架构,它会在这三个模型之间路由请求。
指标与统计协议:我们遵循第 3 节中定义的协议。
延迟:我们报告端到端的 P50 和 P95 延迟。P95 防护栏使用协同疏漏校正后的估计值进行判断,以考虑调度伪影,这是生产系统的关键细节。我们将防护栏设定为 $\delta=10\%$。
成本:以毫秒为单位的平均评估时间(GPU-ms/请求)来衡量,这是在自托管环境中计算成本的直接代理。我们也报告 $r_{\text{costly}}$。
质量:通过在一系列指标(包括准确性和事实性)上进行的 TOST 非劣性检验来评估质量。我们使用 Benjamini–Hochberg 程序来控制所有统计检验的族系错误率(FDR)。
合规性:我们强制执行严格的 JSON 结构,并报告其通过率。
6. 结果与分析(统一口径、四口径并列、可审计)
6.1 关键指标(Warm-only 主视图 + CO 主判)
(主判:CO-corrected P95;统计家族与删失口径见 §4)
| 指标 | 基线(Baseline_enh) | TSG(Gateway_3stage) | 相对变化 |
|---|---|---|---|
| P50 E2E 延迟 (ms, Warm) | 2638.26 | 1087.59 | ↓ 58.8% |
| Avg eval ms(≈GPU-ms/req, Warm) | 2054.10 | 1180.41 | ↓ 42.5% |
r_costly(Warm) |
100.0% | 29.3% | ↓ 70.7% |
| P95(CO-corrected, Overall) | 2780.64 | 2681.45 | ↓ 3.6%(满足 +10% 护栏) |
| JSON 合规失败率(家族 C) | ≤ 0.5%(门限) | 0% | —— |
| 质量 TOST(家族 A, q=10%) | —— | 通过 | —— |
注:P95 主判采用 CO-corrected, Overall;并联披露四口径见表 2。Avg eval ms 为自托管 GPU 成本代理,不含网络/排队等外部因素;API 计费口径另表(见附录 A.3)。家族 A(质量)用 BH-95(q=10%)控制 FDR;家族 B 为 P95 护栏;家族 C 为 JSON 合规。固定指纹在表注/附录落盘:tdigest_compression=200、p95_delta=0.10、tdigest_version、warmup_window_ms、co_correction、billing_version 等(具体值由脚本/seed_manifest 填充)。retry_rate_pct、refusal_rate_pct、timeouts_rate 等由脚本按 warm 样本自动计算与输出,不手写。
6.2 P95 四口径并列与删失披露
| 口径 | 基线 | TSG | 说明 |
|---|---|---|---|
| Raw – Overall | (脚本产出) | (脚本产出) | KM 与 SLO-cap 并列披露 |
| Raw – Warm-only | (脚本产出) | (脚本产出) | 同上 |
| CO – Overall(主判) | 2780.64 | 2681.45 | 护栏内通过 |
| CO – Warm-only | 2647.40 | 2629.00 | 供对照(Warm-only) |
超时率 timeouts_rate(Warm) |
(脚本产出) | (脚本产出) | 固定披露 |
censoring_mode |
KM & SLO-cap | KM & SLO-cap | 两套并列 |
6.3 质量 TOST(两单侧,分层 + FDR)
在 task / ctx_bucket / tool_use / provider / region / cold_warm / cache_hit 等关键层上对主质量指标执行 TOST(两单侧),$\varepsilon$ 在注册清单中固定。对每层的两单侧检验获得的 $p$ 值集合按 BH-95($q=10\%$)控制 FDR(家族 A),逐层判定后再汇总。所有层均 通过非劣;未发现系统性质量下降。
公式提示:记差值 ,则 TOST 判据为
以同一 对两单侧检验并行,两者同时拒绝原假设即判等效/非劣;层内采用 BCa 引导区间,系列相关性可选 MBB 纠偏,家族化错误率由 BH-95 控制(细节见附录 B)。
6.4 路由与成本分解
三路径集合 ,昂贵集 ,故 (TSG,Warm)。成本模型
TSG 的 P50/成本改善,主要来源于 的大幅收缩与同层修复降低“非必要升级”的计算浪费;在 JSON/代码任务设定“路径楼层”的同时,仍维持低 P95 尾延(CO 主判)通过护栏。
6.5 失败模式与鲁棒性
- JSON 合规:两组失败率均 0%,满足家族 C 的 $\le 0.5\%$ 硬门;受控执行器的同层修复对轻微结构性错误(如缺字段)有效。
- 重试与拒绝:
retry_rate_pct、refusal_rate_pct由脚本按 Warm-only 自动统计,不手写;重试的贡献已在删失(KM & SLO-cap)与 CO 补偿框架内统一处理。 - 灵敏度:当
thr_std下调或thr_enh上调时,$r_{\mathrm{enh}}$ 进一步下降,但需以家族 A/B 通过为约束;扩充分层(如 provider×region)后结论保持稳定(见附录 B 的功效分析)。
7. 讨论与未来展望
- 硬件放大效应:在专业 GPU/更优 I/O 的数据中心环境下,排队与内存抖动更可控;同一策略将带来更低的基线延迟,重试率更低,绝对改善值更大。
- 模型规模与异构性:当服务集群扩展到更大模型家族(Llama、Mistral、GPT/Claude 等),能力梯度拉大,QAR 更容易区分复杂度,预期推理成本可进一步下降。
- 任务多样性:RAG、多轮对话、代码生成等场景引入外部检索/状态演化/不同质量指标;TSG 的 规划→路由→受控执行 范式与统计协议可直接复用,但需在
needs_upgrade与“路径楼层”规则中细化域内校验器(例如代码单元测试、事实核验器)。 - 消融研究:A) 去规划器(仅长度阈值)→ 量化规划器价值;B) 去同层修复(失败即升级)→ 估计“就地修复”的节省;C) 两段式 vs 三段式 → 路由复杂度与增益权衡。
- 线上验证:建议在影子/灰度环境采用 Switchback(A/B/A/B)长周期实验,减轻时间偏置;家族化判定与四口径框架原样沿用。
8. 生产落地与运行手册(Runbook 摘要)
- 版本与指纹钉住:冻结
plan/route规则、阈值(thr_std=0.40、thr_enh=0.85)、tdigest_compression=200、p95_delta=0.10、co_correction、warmup_window_ms、billing_version等,随实验包落盘seed_manifest.txt/bootstrap_meta.json。 - 监控与看板:四口径 P95 蜘蛛图 + 家族 A/B/C 信号灯;Warm-only/Overall 分面 + KM/SLO-cap 双轨;将
timeouts_rate、retry_rate_pct以固定卡片显示。 - SLO 策略:以 CO-Overall P95 为主 SLO;Raw/Warm-only 为回归诊断;过阈触发自动降档(收紧路由楼层/关闭增强)。
- 灰度策略:对
ctx_bucket×provider×region做分层流量拨入,家族 A/B 任一未通过立即回滚;合并决策采用门槛规则 + BH-95 控制。 - 追踪与回放:全量事件
events.jsonl(含right_censored、co_marker)+ 指标表(metrics_summary.parquet)可一键重放;KM/SLO-cap/CO 估计路径在脚本中可复演。 - 异常演练:周期性注入“超时/拒绝/JSON 缺字段”,验证同层修复与升级策略的稳定性。
9. 结论
本文提出并验证了三段式智慧管线(TSG),在质量非劣(分层 TOST + FDR)与 P95 护栏(CO 主判)两重约束下,显著降低 P50 端到端延迟(↓58.8%)与平均计算时长(↓42.5%),并将昂贵路径触发率从 100% 压至 29.3%。框架以四口径并列 + 删失披露确保评估的可审计与可重现,可作为生产就绪的 LLM 服务网关蓝图。未来将扩展到更大模型家族、更多任务类型与分布式多副本环境,并完成线上验证。
附录
A 完整指标表与口径
| 组别 | Raw-Overall | Raw-Warm | CO-Overall | CO-Warm | KM(Warm) | SLO-cap(Warm) | timeouts_rate(Warm) |
|---|---|---|---|---|---|---|---|
| 基线 | (脚本产出) | (脚本产出) | 2780.64 | 2647.40 | (脚本产出) | (脚本产出) | (脚本产出) |
| TSG | (脚本产出) | (脚本产出) | 2681.45 | 2629.00 | (脚本产出) | (脚本产出) | (脚本产出) |
| 指标 | 基线 | TSG |
|---|---|---|
| Avg eval ms(≈GPU-ms/req) | 2054.10 | 1180.41 |
r_light |
—— | (脚本产出) |
r_std |
—— | (脚本产出) |
r_enh(=r_costly) |
100.0% | 29.3% |
在 API 模式下并列披露 $/req$(按 billing_version 与最小计费粒度模拟),并与自托管口径对齐(非本文主要情境,略)。
B 统计检验与估计细节
B.1 TOST(两单侧,分层 + 家族化)
层级:task / ctx_bucket / tool_use / provider / region / cold_warm / cache_hit。
设定:$\varepsilon$ 预注册;两单侧显著性 $\alpha$ 统一;BH-95($q=10\%$) 控制家族 A 的 FDR。
区间:BCa Bootstrap;如序列相关显著,采用 MBB(移动块)校正。
判定:两单侧同时拒绝 → 非劣/等效通过;否则失败。
B.2 P95 估计与删失
在线:t-digest(tdigest_compression=200, tdigest_version 记录)。
离线:Harrell–Davis + BCa 置信区间。
删失:KM 与 SLO-cap 并列;CO-correction 作为调度/采样伪影的主补偿机制;四口径中 CO-Overall 为主判。
护栏:
C 事件/指纹 Schema(节选)
{
"request_id": "uuid",
"ts": "iso8601",
"bucket": {"task":"...", "ctx_bucket":"...", "provider":"...", "region":"..."},
"route": {"initial":"light|std|enh", "final":"...", "upgrades": 0},
"latency_ms": {"e2e": 0.0, "eval_ms": 0.0, "overhead_ms": 0.0},
"censoring": {"timeout": false, "right_censored": false, "censoring_mode": "KM|SLO-cap"},
"co_marker": true,
"quality": {"metric_main": 0.0, "json_ok": true, "refusal": false},
"retry": {"attempt": 0, "is_retry": false},
"fingerprint": {
"tdigest_version": "x.y",
"tdigest_compression": 200,
"warmup_window_ms": "由脚本填充",
"co_correction": "on",
"billing_version": "x.y"
}
}
D 复现实验参数与实现对齐
规划器复杂度分数:
路由阈值:thr_std=0.40, thr_enh=0.85;保留 fast-lane;JSON/代码任务路径楼层不低于 std。
升级策略:同层修复 1 次;最大受控升级次数 2。
P95 配置:tdigest_compression=200、p95_delta=0.10;四口径并列;删失(KM & SLO-cap)与 CO-correction 一致。
产物:events.jsonl、metrics_summary.parquet、tests_family_{A,B,C}.csv、bootstrap_meta.json、seed_manifest.txt。
E 消融实验和分析
为了深入剖析 TSG 架构中各个创新组件的独立贡献,并验证我们核心发现的稳健性,我们进行了一系列详尽的消融与敏感性分析。本章节旨在透过精确的数据,回答一个核心问题:TSG 的卓越性能,究竟来源于哪些关键设计?
为了便于比较,我们将所有相关实验的核心指标汇总于下表。所有实验均以「TSG (完整版)」作为对照基准。
TSG 架构消融与敏感性分析核心指标对比(Warm-only)
(平均成本≈GPU-ms/req;P95 为主判口径;行 C 因关闭 CO 校正,P95 为 Raw 口径并据实披露。)
| 实验设置 | 平均成本 (ms/req) | r_costly (%) | 重试率 (%) | P50 延迟 (ms) | P95 延迟 (ms, CO) |
|---|---|---|---|---|---|
| TSG (完整版) | 1154.1 | 29.3% | 16.2% | 1071.2 | 2629.0 |
| (A) 简化为“两段式” | 1122.5(−2.7%) | 25.9% | 19.8% | 1090.8 | 2507.5 |
| (B) 关闭「快车道」 | 1202.9(+4.2%) | 29.4% | 16.2% | 1112.7 | 2721.2 |
| (C) 移除 CO 校正 | 1272.4(+10.2%) | 29.4% | 16.2% | 1099.9 | 2729.4 |
| (D) 高精度统计分析 | 1181.1(+2.3%) | 29.4% | 16.2% | 1087.8 | 2671.9 |
行 C 为 Raw 口径(因关闭 CO-correction);主文仍以 CO-corrected 为主判并在附表并列 Raw/CO × Overall/Warm-only 四口径。
E.1 功能组件消融分析(A & B)
消融研究 A:三段架构 vs. 两段架构。 实验设计:通过设置高路由阈值(--thr_std 1.0 --thr_enh 1.0),意图将系统简化为仅包含「轻量级」和「增强级」的两层架构。
关键发现: 尽管试图绕过标准层,标准路径依然被触发 ≈25.9%(std_pct)。这是由于系统的 路径楼层(Path Floor) 机制(json_floor="std", code_floor="std"):被识别为 JSON 或代码的任务,初始路径会从 light 强制提升至 std。
结论: 一个由精细的智能规划器主导的系统 vs. 一个主要由粗粒度硬性规则(楼层机制)主导的系统。结果显示,平均计算成本下降约 2.7%,但重试率上升约 3.6 个百分点。这并不意味着仅靠粗粒度规则更优;相反,它表明当流量结构较简单时,两段式可以作为“节流档”取得一定成本收益,但 标准层 作为性价比缓冲区的价值在更复杂/多样任务中仍然重要,智能规划器在为每个请求匹配最经济高效路径、稳定 r_costly 与质量约束方面不可或缺。
消融研究 B:核心规划器的效率。 实验设计:移除为简单请求设计的「快车道」机制(--force_light_len 0 / --force_light_score 0.0)。
结论: 核心指标的变化幅度有限(P50 与成本小幅上浮,P95 上浮约 3–4%)。这并非说明「快车道」无用,恰恰相反,从侧面证明启发式规划器本身就足够高效与准确,已能在常规流程中识别简单请求并路由到 light,使得额外“捷径”的边际收益变得较小。
E.2 统计方法敏感性分析(C & D)
实验 C:CO 校正的影响。 实验设计:移除协同疏漏校正(CO-correction)。
结论: 系统运行行为(如路由分布、r_costly、重试率)与完整版几乎一致。P95 数值上浮(此处为 Raw 口径 2729.4 ms)反映的是测量标尺改变,而非底层性能波动。证明系统在实验负载下运行平稳,也凸显在复杂生产环境中坚持使用 CO-corrected P95 作为主判的必要性(让尾部估计稳定、可审计)。
实验 D:统计精度的稳健性。 实验设计:将 P95 估计精度与 Bootstrap 采样数提升(如 --tdigest-compression 500, --bootstrap-B 5000)。
结论: 核心指标变化均在约 2% 的微小范围内,结论具有统计稳健性,不依赖特定统计参数或随机种子。
E.3 综合结论
本章节的消融研究与分析,从功能组件到统计方法,系统性地验证了 TSG 架构设计的合理性与高效性:
- 证明了精细的智能规划器相较单纯“楼层规则”更具普适性与经济性;
- 验证了核心规划器本身的高效与准确,快车道带来的是边际优化;
- 确认所有结论在 CO-corrected 主判与更高统计精度下依旧成立,具有审计友好与可重现性。 本文由心路旅程原创,可用于学术及研究交流,本人已申请国家专利如需商业使用请联系本人,任何人均可自由转载,请注明出处和作者。 [Upload files · haizei1234A/-](https://github.com/haizei1234A/-/upload)本人github仓库,内有本文所附核心实现代码。