三段式智慧管线：一个兼顾质量、延迟与成本效益的 LLM 服务网关架构大型语言模型（LLM）的普及带来变革性能力，但在真实

摘要

在生产环境中部署大型语言模型（LLM）面临“质量—延迟—成本”的三角困境。单纯上更大的模型常导致成本失控与难以接受的 P95 尾部延迟。为此本文提出三段式智慧管线（Three-Stage Sentry, TSG）：(1) 轻量级请求规划器（Request Planner）预估复杂度并生成回答骨架；(2) 品质感知路由器（Quality-Aware Router, QAR）将请求派发到轻/标准/增强多级服务；(3) 受控执行器（Controlled Executor）在生成过程中做即时自检，并按策略进行同层修复 → 受控升级。

我们配套了一套可审计的统计度量协议：在质量主指标上执行分层 TOST（两单侧，q=10\%预注册），并在家族 A 采用 BH-95（q=10\%）控制 FDR；同时以 CO-corrected 的 P95 作为主判护栏（家族 B），并披露删失口径（KM & SLO-cap）。

在商用 GPU（RTX 2060S，自托管推理口径）与千问 3（Qwen3）模型家族上的复现实验显示：P50 端到端延迟降低 58.8%（2638.26→1087.59 ms），平均计算时长（≈GPU-ms/req）降低 42.5%（2054.10→1180.41 ms），昂贵路径触发率r_{\text{costly}}从 100% 压到 29.3%；CO-corrected overall P95 改善 3.6%（2780.64→2681.45 ms，满足 +10% 护栏），质量 TOST 非劣 + FDR 通过。

为保证可重现性，报告统一并列 Raw/CO × Overall/Warm-only 四口径，固定披露 timeouts_rate 与 censoring_mode（KM & SLO-cap），并在表注落指纹（tdigest_compression/version、warmup_window_ms、co_correction 等）。

1. 绪论

大型语言模型（LLM）的普及带来变革性能力，但在真实世界的大规模服务中仍面临工程挑战：既要守住用户感知质量，又要兼顾低延迟与合理成本。由于模型能力与计算足迹近似正相关，简单地为所有流量部署“最大最强”模型往往导致营运支出膨胀与 P95 尾延失控。我们主张在模型前采用一个模型无关的网关，对每个请求进行前瞻性分析与分流，以在质量与尾部延迟硬约束下，给到刚好足够的资源。

本文贡献：

架构：提出三段式智慧管线（TSG），包含请求规划、品质感知路由与受控执行三个阶段；

统计协议：形式化一个可审计的评估框架——分层 TOST 非劣 + 家族化 FDR，并以 CO-corrected P95 设定护栏；

实证：在消费级 GPU 上做可复现实验，证明在质量与 P95 护栏不退让的前提下，TSG 显著降低 P50 与计算成本；

可落地蓝图：提供与工程 Runbook/看板/指纹一致的度量与回放产物，便于审计与重放。

2. 相关研究

级联与专家混合。FrugalGPT 展示了通过级联与判断器降本的潜力。我们的工作在生产口径上补齐：将 TOST 非劣与 CO-corrected P95 护栏纳入硬约束，并引入同层修复/受控升级的执行模型。

高效推理系统。 vLLM 等系统通过内存与调度优化提升吞吐；TSG 与此正交，通过避免不必要计算与受控升级进一步降低尾延与成本。

线上实验与统计严谨性。 我们采用 TOST（Schuirmann 1987）做非劣/等效判定，并使用 BCa-Bootstrap 与（可选）MBB 处理依赖，辅以家族化 FDR 控制多重比较；删失场景下并列 KM-Bootstrap 与 SLO-cap。这些做法已在规范与脚本中固化为家族 A/B/C 三类检验。

3. 三段式智慧管线架构

3.1 形式化与约束

给定请求分布 $\mathcal{D}$ ，寻找策略 $\pi: X \to A$ （模型选择、量化、温度等配置）以最小化期望成本 $\mathbb{E}[C(x,\pi(x))]$ ，约束为：

质量非劣（主指标）：对每个关键分层 $s$ 执行 TOST 两单侧，边界 $\varepsilon_s$ 预注册；家族 A 统一用 BH-95， $q=10\%$ 控制 FDR。任何关键层未过即总体失败。

P95 护栏（家族 B）：以 CO-corrected 为主判，要求 $P^{\mathrm{CO}}_{95}(L_{\pi}) \le (1+\delta)\cdot P^{\mathrm{CO}}_{95}(L_{\mathrm{base}}),$ 并在 Overall/Warm-only 双口径均满足（默认 $\delta=10\%$ ）。

JSON 合规（家族 C）：失败率 $\le 0.5\%$ 的硬约束，未达标进入 SafePath/重试。

以上检验在脚本中以 HD+BCa（离线）/ t-digest（在线）统一实现，并把 tdigest_compressiontdigest_version 写入指标指纹。

说明（口径统一）：报告 P95 四口径并列：Raw/CO × Overall/Warm-only，并固定披露 timeouts_rate 与 censoring_mode（KM / SLO-cap）；主判基于 CO-corrected。

3.2 成本分解与符号

我们采用三路径成本模型：

$\mathrm{CPR} = r_{\mathrm{light}} C_{\mathrm{light}} + r_{\mathrm{std}} C_{\mathrm{std}} + r_{\mathrm{costly}} C_{\mathrm{costly}} + C_{\mathrm{overhead}}, \qquad r_{\mathrm{light}} + r_{\mathrm{std}} + r_{\mathrm{costly}} = 1.$

在三路径场景 $A=\{\text{light},\text{std},\text{enh}\}$ 下，昂贵路径集合 $A_{\mathrm{costly}}=\{\text{enh}\}$ ，故 $r_{\mathrm{costly}} := r_{\mathrm{enh}}$ 。其中 $C_{\mathrm{overhead}}$ 为规划/路由/自检/编排/网络等非推理开销；自托管口径报告 GPU-ms/req（推理）+ Overhead；API 口径报告 1k-token 计费/调用费/SLA 罚金/最小计费粒度，并把计费版本写入指纹。

3.3 阶段一：请求规划器

规划器对输入做快速特征化，输出 JudgeReport（复杂度分数、回答骨架、风险因子）。复杂度分数采用与脚本一致的启发式线性模型：

$\mathrm{score} = \frac{\mathrm{len}}{200} + \frac{\mathrm{marks}}{6} + 0.8\cdot \mathbf{1}[\mathrm{heavy}],\quad \mathrm{clip}[0,1.6].$

并据此参与路径判定；默认阈值 thr_std=0.40、thr_enh=0.85，同时保留 fast-lane（极短或极低分直接走 light）。实现与 bench_ollama_3stage.py 的 plan/route 完全一致。

3.4 阶段二：品质感知路由器（QAR）

路由器以 score 与风险因子决定初始路径（light/std/enh），并结合任务“楼层”策略（如 JSON/代码任务下限不低于 std）与最大升级次数限制（默认 2）。该策略以可解释规则为主导，复杂度阈值与“楼层”均在脚本参数中可复现。

3.5 阶段三：受控执行器

执行器流程为：初次生成 → 同层修复（一次）→ 受控升级（若必要）。升级到 enh 受 max_upgrades 约束，拒绝/超时等异常会记录为事件，供删失与 ITT 指标使用（见 §4）。该逻辑在脚本中与 JSON 合同校验、拒绝检测与节拍期补齐（CO）共同实现。

4. 评测方法与指标（统一口径，可审计）

4.1 指标与主判

质量（主指标）：对每个关键层（task/ctx_bucket/tool_use/provider/region/cold_warm/cache_hit）做 TOST 两单侧，$\varepsilon$ 在注册清单中固定。对每层的两单侧检验获得的 $p$ 值集合按 BH-95（$q=10\%$）控制 FDR（家族 A），逐层判定后再汇总。脚本输出层级 CI、两单侧 $p$ 值、FDR 结果，并附 post-hoc 功效与样本量参考。
延迟（护栏）：CO-corrected P95 为主判；Raw/CO × Overall/Warm-only 四口径并列展示，并固定披露 timeouts_rate 与 censoring_mode（KM / SLO-cap）。脚本内置 t-digest（在线）、HD+BCa（离线）与 KM-Bootstrap。默认 tdigest_compression=200、p95_delta=0.10。
成本：以 Avg eval ms（≈GPU-ms/req）为自托管代理，并报告 $r_{\text{costly}}$；API 口径另并列 $/req$。
合规：JSON 失败率 $\le 0.5\%$ 作为硬门（家族 C），未通过即 Fail。

事件与指纹 Schema（表注固定项）：co_correction、tdigest_compression、tdigest_version、warmup_window_ms、billing_version、right_censored、user_tenant 等都会写入汇总与事件工件，便于回放与对账。产物包含 metrics_summary.parquet、tests_family_{A,B,C}.csv、bootstrap_meta.json、seed_manifest.txt 与全量 events.jsonl。

4.2 口径与删失披露

四口径并列是报告强制项：Raw-Overall / Raw-Warm / CO-Overall / CO-Warm；并在 Warm-only 下同时给出 KM 与 SLO-cap 两套数值与 timeouts_rate。该规范已在技术文档与脚本中对齐，并在看板模板中固化。

4.3 ITT/重试与拒绝率

重试率 retry_rate_pct 与拒绝率 refusal_rate_pct 由脚本按 warm 样本自动统计与输出；对外不手写常数，直接使用脚本产物填表（避免与实际配置漂移）。

5. 实验设置

模型与硬件：我们使用了一个由三个通义千问 3 (Qwen3) 模型组成的模型集群：qwen3:0.6b（轻量级）、qwen3:1.7b（标准）和 qwen3:4b（增强）。所有实验均在配备 NVIDIA RTX 2060 SUPER GPU 的单机上运行。

数据集：我们构建了一个包含 200 个多样化请求的数据集（排除预热样本后，有效评估样本为 $N_{eval}=198$），旨在涵盖不同复杂度并要求结构化（JSON）输出。

基线与实验组：

基线 (Baseline_enh)：一种简单的服务策略，所有 198 个请求都直接发送给最强大的模型（qwen3:4b）。
实验组 (Gateway_3stage)：我们提出的 TSG 架构，它会在这三个模型之间路由请求。

指标与统计协议：我们遵循第 3 节中定义的协议。

延迟：我们报告端到端的 P50 和 P95 延迟。P95 防护栏使用协同疏漏校正后的估计值进行判断，以考虑调度伪影，这是生产系统的关键细节。我们将防护栏设定为 $\delta=10\%$。

成本：以毫秒为单位的平均评估时间（GPU-ms/请求）来衡量，这是在自托管环境中计算成本的直接代理。我们也报告 $r_{\text{costly}}$。

质量：通过在一系列指标（包括准确性和事实性）上进行的 TOST 非劣性检验来评估质量。我们使用 Benjamini–Hochberg 程序来控制所有统计检验的族系错误率（FDR）。

合规性：我们强制执行严格的 JSON 结构，并报告其通过率。

6. 结果与分析（统一口径、四口径并列、可审计）

6.1 关键指标（Warm-only 主视图 + CO 主判）

表 1　关键指标（Warm-only，除特别说明外；2060S，自托管推理口径）
(主判：CO-corrected P95；统计家族与删失口径见 §4)

指标	基线（Baseline_enh）	TSG（Gateway_3stage）	相对变化
P50 E2E 延迟 (ms, Warm)	2638.26	1087.59	↓ 58.8%
Avg eval ms（≈GPU-ms/req, Warm）	2054.10	1180.41	↓ 42.5%
`r_costly`（Warm）	100.0%	29.3%	↓ 70.7%
P95（CO-corrected, Overall）	2780.64	2681.45	↓ 3.6%（满足 +10% 护栏）
JSON 合规失败率（家族 C）	≤ 0.5%（门限）	0%	——
质量 TOST（家族 A, q=10%）	——	通过	——

注：P95 主判采用 CO-corrected, Overall；并联披露四口径见表 2。Avg eval ms 为自托管 GPU 成本代理，不含网络/排队等外部因素；API 计费口径另表（见附录 A.3）。家族 A（质量）用 BH-95（q=10%）控制 FDR；家族 B 为 P95 护栏；家族 C 为 JSON 合规。固定指纹在表注/附录落盘：tdigest_compression=200、p95_delta=0.10、tdigest_version、warmup_window_ms、co_correction、billing_version 等（具体值由脚本/seed_manifest 填充）。retry_rate_pct、refusal_rate_pct、timeouts_rate 等由脚本按 warm 样本自动计算与输出，不手写。

6.2 P95 四口径并列与删失披露

表 2　P95 四口径并列（Raw/CO × Overall/Warm-only），删失披露随附

口径	基线	TSG	说明
Raw – Overall	（脚本产出）	（脚本产出）	KM 与 SLO-cap 并列披露
Raw – Warm-only	（脚本产出）	（脚本产出）	同上
CO – Overall（主判）	2780.64	2681.45	护栏内通过
CO – Warm-only	2647.40	2629.00	供对照（Warm-only）
超时率 `timeouts_rate`（Warm）	（脚本产出）	（脚本产出）	固定披露
`censoring_mode`	KM & SLO-cap	KM & SLO-cap	两套并列

6.3 质量 TOST（两单侧，分层 + FDR）

在 task / ctx_bucket / tool_use / provider / region / cold_warm / cache_hit 等关键层上对主质量指标执行 TOST（两单侧），$\varepsilon$ 在注册清单中固定。对每层的两单侧检验获得的 $p$ 值集合按 BH-95（$q=10\%$）控制 FDR（家族 A），逐层判定后再汇总。所有层均 通过非劣；未发现系统性质量下降。

公式提示：记差值 $\Delta = \mu_{\mathrm{TSG}} - \mu_{\mathrm{Base}}$ ，则 TOST 判据为

\begin{cases} H_{01}:\; \Delta \le -\varepsilon \quad \text{vs.} \quad H_{A1}:\; \Delta > -\varepsilon, \\ H_{02}:\; \Delta \ge \varepsilon \quad \text{vs.} \quad H_{A2}:\; \Delta < \varepsilon. \end{cases}

以同一 $\alpha$ 对两单侧检验并行，两者同时拒绝原假设即判等效/非劣；层内采用 BCa 引导区间，系列相关性可选 MBB 纠偏，家族化错误率由 BH-95 控制（细节见附录 B）。

6.4 路由与成本分解

三路径集合 $A=\{\mathrm{light},\mathrm{std},\mathrm{enh}\}$ ，昂贵集 $A_{\mathrm{costly}}=\{\mathrm{enh}\}$ ，故 $r_{\mathrm{costly}}\equiv r_{\mathrm{enh}}=29.3\%$ （TSG，Warm）。成本模型

$\mathrm{CPR}=r_{\mathrm{light}}C_{\mathrm{light}}+r_{\mathrm{std}}C_{\mathrm{std}}+r_{\mathrm{enh}}C_{\mathrm{enh}}+C_{\mathrm{overhead}},\quad r_{\mathrm{light}}+r_{\mathrm{std}}+r_{\mathrm{enh}}=1.$

TSG 的 P50/成本改善，主要来源于 $r_{\mathrm{enh}}$ 的大幅收缩与同层修复降低“非必要升级”的计算浪费；在 JSON/代码任务设定“路径楼层”的同时，仍维持低 P95 尾延（CO 主判）通过护栏。

6.5 失败模式与鲁棒性

JSON 合规：两组失败率均 0%，满足家族 C 的 $\le 0.5\%$ 硬门；受控执行器的同层修复对轻微结构性错误（如缺字段）有效。
重试与拒绝：retry_rate_pct、refusal_rate_pct 由脚本按 Warm-only 自动统计，不手写；重试的贡献已在删失（KM & SLO-cap）与 CO 补偿框架内统一处理。
灵敏度：当 thr_std 下调或 thr_enh 上调时，$r_{\mathrm{enh}}$ 进一步下降，但需以家族 A/B 通过为约束；扩充分层（如 provider×region）后结论保持稳定（见附录 B 的功效分析）。

7. 讨论与未来展望

硬件放大效应：在专业 GPU/更优 I/O 的数据中心环境下，排队与内存抖动更可控；同一策略将带来更低的基线延迟，重试率更低，绝对改善值更大。
模型规模与异构性：当服务集群扩展到更大模型家族（Llama、Mistral、GPT/Claude 等），能力梯度拉大，QAR 更容易区分复杂度，预期推理成本可进一步下降。
任务多样性：RAG、多轮对话、代码生成等场景引入外部检索/状态演化/不同质量指标；TSG 的 规划→路由→受控执行 范式与统计协议可直接复用，但需在 needs_upgrade 与“路径楼层”规则中细化域内校验器（例如代码单元测试、事实核验器）。
消融研究：A) 去规划器（仅长度阈值）→ 量化规划器价值；B) 去同层修复（失败即升级）→ 估计“就地修复”的节省；C) 两段式 vs 三段式 → 路由复杂度与增益权衡。
线上验证：建议在影子/灰度环境采用 Switchback（A/B/A/B）长周期实验，减轻时间偏置；家族化判定与四口径框架原样沿用。

8. 生产落地与运行手册（Runbook 摘要）

版本与指纹钉住：冻结 plan/route 规则、阈值（thr_std=0.40、thr_enh=0.85）、tdigest_compression=200、p95_delta=0.10、co_correction、warmup_window_ms、billing_version 等，随实验包落盘 seed_manifest.txt / bootstrap_meta.json。
监控与看板：四口径 P95 蜘蛛图 + 家族 A/B/C 信号灯；Warm-only/Overall 分面 + KM/SLO-cap 双轨；将 timeouts_rate、retry_rate_pct 以固定卡片显示。
SLO 策略：以 CO-Overall P95 为主 SLO；Raw/Warm-only 为回归诊断；过阈触发自动降档（收紧路由楼层/关闭增强）。
灰度策略：对 ctx_bucket×provider×region 做分层流量拨入，家族 A/B 任一未通过立即回滚；合并决策采用门槛规则 + BH-95 控制。
追踪与回放：全量事件 events.jsonl（含 right_censored、co_marker）+ 指标表（metrics_summary.parquet）可一键重放；KM/SLO-cap/CO 估计路径在脚本中可复演。
异常演练：周期性注入“超时/拒绝/JSON 缺字段”，验证同层修复与升级策略的稳定性。

9. 结论

本文提出并验证了三段式智慧管线（TSG），在质量非劣（分层 TOST + FDR）与 P95 护栏（CO 主判）两重约束下，显著降低 P50 端到端延迟（↓58.8%）与平均计算时长（↓42.5%），并将昂贵路径触发率从 100% 压至 29.3%。框架以四口径并列 + 删失披露确保评估的可审计与可重现，可作为生产就绪的 LLM 服务网关蓝图。未来将扩展到更大模型家族、更多任务类型与分布式多副本环境，并完成线上验证。

附录

A　完整指标表与口径

表 A.1　P95（Raw/CO × Overall/Warm-only）（主判：CO-Overall；删失：KM & SLO-cap 并列；2060S，自托管）

组别	Raw-Overall	Raw-Warm	CO-Overall	CO-Warm	KM（Warm）	SLO-cap（Warm）	`timeouts_rate`（Warm）
基线	（脚本产出）	（脚本产出）	2780.64	2647.40	（脚本产出）	（脚本产出）	（脚本产出）
TSG	（脚本产出）	（脚本产出）	2681.45	2629.00	（脚本产出）	（脚本产出）	（脚本产出）

表 A.2　核心耗时与路由分布（Warm-only）

指标	基线	TSG
Avg eval ms（≈GPU-ms/req）	2054.10	1180.41
`r_light`	——	（脚本产出）
`r_std`	——	（脚本产出）
`r_enh`（=`r_costly`）	100.0%	29.3%

表 A.3　API 计费口径（如适用）

在 API 模式下并列披露 $/req$（按 billing_version 与最小计费粒度模拟），并与自托管口径对齐（非本文主要情境，略）。

B　统计检验与估计细节

B.1　TOST（两单侧，分层 + 家族化）

层级：task / ctx_bucket / tool_use / provider / region / cold_warm / cache_hit。

设定：$\varepsilon$ 预注册；两单侧显著性 $\alpha$ 统一；BH-95（$q=10\%$）控制家族 A 的 FDR。

区间：BCa Bootstrap；如序列相关显著，采用 MBB（移动块）校正。

判定：两单侧同时拒绝 → 非劣/等效通过；否则失败。

B.2　P95 估计与删失

在线：t-digest（tdigest_compression=200, tdigest_version 记录）。

离线：Harrell–Davis + BCa 置信区间。

删失：KM 与 SLO-cap 并列；CO-correction 作为调度/采样伪影的主补偿机制；四口径中 CO-Overall 为主判。

护栏：

$P^{\mathrm{CO}}_{95}(L_{\pi}) \le (1+\delta)\cdot P^{\mathrm{CO}}_{95}(L_{\mathrm{base}}),\quad \delta=10\%.$

C　事件/指纹 Schema（节选）

{ "request_id": "uuid", "ts": "iso8601", "bucket": {"task":"...", "ctx_bucket":"...", "provider":"...", "region":"..."}, "route": {"initial":"light|std|enh", "final":"...", "upgrades": 0}, "latency_ms": {"e2e": 0.0, "eval_ms": 0.0, "overhead_ms": 0.0}, "censoring": {"timeout": false, "right_censored": false, "censoring_mode": "KM|SLO-cap"}, "co_marker": true, "quality": {"metric_main": 0.0, "json_ok": true, "refusal": false}, "retry": {"attempt": 0, "is_retry": false}, "fingerprint": { "tdigest_version": "x.y", "tdigest_compression": 200, "warmup_window_ms": "由脚本填充", "co_correction": "on", "billing_version": "x.y" } }

D　复现实验参数与实现对齐

规划器复杂度分数：
$\mathrm{score} = \tfrac{\mathrm{len}}{200} + \tfrac{\mathrm{marks}}{6} + 0.8\cdot \mathbf{1}[\mathrm{heavy}],\; \mathrm{clip}[0,1.6].$

路由阈值：thr_std=0.40, thr_enh=0.85；保留 fast-lane；JSON/代码任务路径楼层不低于 std。

升级策略：同层修复 1 次；最大受控升级次数 2。

P95 配置：tdigest_compression=200、p95_delta=0.10；四口径并列；删失（KM & SLO-cap）与 CO-correction 一致。

产物：events.jsonl、metrics_summary.parquet、tests_family_{A,B,C}.csv、bootstrap_meta.json、seed_manifest.txt。

E　消融实验和分析

为了深入剖析 TSG 架构中各个创新组件的独立贡献，并验证我们核心发现的稳健性，我们进行了一系列详尽的消融与敏感性分析。本章节旨在透过精确的数据，回答一个核心问题：TSG 的卓越性能，究竟来源于哪些关键设计？

为了便于比较，我们将所有相关实验的核心指标汇总于下表。所有实验均以「TSG (完整版)」作为对照基准。

TSG 架构消融与敏感性分析核心指标对比（Warm-only）

（平均成本≈GPU-ms/req；P95 为主判口径；行 C 因关闭 CO 校正，P95 为 Raw 口径并据实披露。）

实验设置平均成本 (ms/req) r_costly (%) 重试率 (%) P50 延迟 (ms) P95 延迟 (ms, CO)

TSG (完整版) 1154.1 29.3% 16.2% 1071.2 2629.0

(A) 简化为“两段式” 1122.5（−2.7%） 25.9% 19.8% 1090.8 2507.5

(B) 关闭「快车道」 1202.9（+4.2%） 29.4% 16.2% 1112.7 2721.2

(C) 移除 CO 校正 1272.4（+10.2%） 29.4% 16.2% 1099.9 2729.4

(D) 高精度统计分析 1181.1（+2.3%） 29.4% 16.2% 1087.8 2671.9

行 C 为 Raw 口径（因关闭 CO-correction）；主文仍以 CO-corrected 为主判并在附表并列 Raw/CO × Overall/Warm-only 四口径。

E.1 功能组件消融分析（A & B）

消融研究 A：三段架构 vs. 两段架构。 实验设计：通过设置高路由阈值（--thr_std 1.0 --thr_enh 1.0），意图将系统简化为仅包含「轻量级」和「增强级」的两层架构。

关键发现： 尽管试图绕过标准层，标准路径依然被触发 ≈25.9%（std_pct）。这是由于系统的 路径楼层（Path Floor） 机制（json_floor="std", code_floor="std"）：被识别为 JSON 或代码的任务，初始路径会从 light 强制提升至 std。

结论： 一个由精细的智能规划器主导的系统 vs. 一个主要由粗粒度硬性规则（楼层机制）主导的系统。结果显示，平均计算成本下降约 2.7%，但重试率上升约 3.6 个百分点。这并不意味着仅靠粗粒度规则更优；相反，它表明当流量结构较简单时，两段式可以作为“节流档”取得一定成本收益，但 标准层 作为性价比缓冲区的价值在更复杂/多样任务中仍然重要，智能规划器在为每个请求匹配最经济高效路径、稳定 r_costly 与质量约束方面不可或缺。

消融研究 B：核心规划器的效率。 实验设计：移除为简单请求设计的「快车道」机制（--force_light_len 0 / --force_light_score 0.0）。

结论： 核心指标的变化幅度有限（P50 与成本小幅上浮，P95 上浮约 3–4%）。这并非说明「快车道」无用，恰恰相反，从侧面证明启发式规划器本身就足够高效与准确，已能在常规流程中识别简单请求并路由到 light，使得额外“捷径”的边际收益变得较小。

E.2 统计方法敏感性分析（C & D）

实验 C：CO 校正的影响。 实验设计：移除协同疏漏校正（CO-correction）。

结论： 系统运行行为（如路由分布、r_costly、重试率）与完整版几乎一致。P95 数值上浮（此处为 Raw 口径 2729.4 ms）反映的是测量标尺改变，而非底层性能波动。证明系统在实验负载下运行平稳，也凸显在复杂生产环境中坚持使用 CO-corrected P95 作为主判的必要性（让尾部估计稳定、可审计）。

实验 D：统计精度的稳健性。 实验设计：将 P95 估计精度与 Bootstrap 采样数提升（如 --tdigest-compression 500, --bootstrap-B 5000）。

结论： 核心指标变化均在约 2% 的微小范围内，结论具有统计稳健性，不依赖特定统计参数或随机种子。

E.3 综合结论

本章节的消融研究与分析，从功能组件到统计方法，系统性地验证了 TSG 架构设计的合理性与高效性：

证明了精细的智能规划器相较单纯“楼层规则”更具普适性与经济性；

验证了核心规划器本身的高效与准确，快车道带来的是边际优化；

确认所有结论在 CO-corrected 主判与更高统计精度下依旧成立，具有审计友好与可重现性。
本文由心路旅程原创，可用于学术及研究交流，本人已申请国家专利如需商业使用请联系本人，任何人均可自由转载，请注明出处和作者。 [Upload files · haizei1234A/-](https://github.com/haizei1234A/-/upload)本人github仓库，内有本文所附核心实现代码。

实验设置	平均成本 (ms/req)	r_costly (%)	重试率 (%)	P50 延迟 (ms)	P95 延迟 (ms, CO)
TSG (完整版)	1154.1	29.3%	16.2%	1071.2	2629.0
(A) 简化为“两段式”	1122.5（−2.7%）	25.9%	19.8%	1090.8	2507.5
(B) 关闭「快车道」	1202.9（+4.2%）	29.4%	16.2%	1112.7	2721.2
(C) 移除 CO 校正	1272.4（+10.2%）	29.4%	16.2%	1099.9	2729.4
(D) 高精度统计分析	1181.1（+2.3%）	29.4%	16.2%	1087.8	2671.9

三段式智慧管线：一个兼顾质量、延迟与成本效益的 LLM 服务网关架构

摘要

1. 绪论

2. 相关研究

3. 三段式智慧管线架构

3.1 形式化与约束

3.2 成本分解与符号

3.3 阶段一：请求规划器

3.4 阶段二：品质感知路由器（QAR）

3.5 阶段三：受控执行器

4. 评测方法与指标（统一口径，可审计）

4.1 指标与主判

4.2 口径与删失披露

4.3 ITT/重试与拒绝率

5. 实验设置

6. 结果与分析（统一口径、四口径并列、可审计）

6.1 关键指标（Warm-only 主视图 + CO 主判）

6.2 P95 四口径并列与删失披露

6.3 质量 TOST（两单侧，分层 + FDR）

6.4 路由与成本分解

6.5 失败模式与鲁棒性

7. 讨论与未来展望

8. 生产落地与运行手册（Runbook 摘要）

9. 结论

附录

A 完整指标表与口径

B 统计检验与估计细节

B.1 TOST（两单侧，分层 + 家族化）

B.2 P95 估计与删失

C 事件/指纹 Schema（节选）

D 复现实验参数与实现对齐

E 消融实验和分析

TSG 架构消融与敏感性分析核心指标对比（Warm-only）

E.1 功能组件消融分析（A & B）

E.2 统计方法敏感性分析（C & D）

E.3 综合结论

A　完整指标表与口径

B　统计检验与估计细节

B.1　TOST（两单侧，分层 + 家族化）

B.2　P95 估计与删失

C　事件/指纹 Schema（节选）

D　复现实验参数与实现对齐

E　消融实验和分析