三段式智慧管线:一个兼顾质量、延迟与成本效益的 LLM 服务网关架构

67 阅读8分钟

摘要

在生产环境中部署大型语言模型(LLM)面临“质量—延迟—成本”的三角困境。单纯上更大的模型常导致成本失控与难以接受的 P95 尾部延迟。为此本文提出三段式智慧管线(Three-Stage Sentry, TSG):(1) 轻量级请求规划器(Request Planner)预估复杂度并生成回答骨架;(2) 品质感知路由器(Quality-Aware Router, QAR)将请求派发到轻/标准/增强多级服务;(3) 受控执行器(Controlled Executor)在生成过程中做即时自检,并按策略进行同层修复 → 受控升级。

我们配套了一套可审计的统计度量协议:在质量主指标上执行分层 TOST(两单侧,q=10\%预注册),并在家族 A 采用 BH-95(q=10\%)控制 FDR;同时以 CO-corrected 的 P95 作为主判护栏(家族 B),并披露删失口径(KM & SLO-cap)。

在商用 GPU(RTX 2060S,自托管推理口径)与千问 3(Qwen3)模型家族上的复现实验显示:P50 端到端延迟降低 58.8%(2638.26→1087.59 ms),平均计算时长(≈GPU-ms/req)降低 42.5%(2054.10→1180.41 ms),昂贵路径触发率r_{\text{costly}}从 100% 压到 29.3%;CO-corrected overall P95 改善 3.6%(2780.64→2681.45 ms,满足 +10% 护栏),质量 TOST 非劣 + FDR 通过。

为保证可重现性,报告统一并列 Raw/CO × Overall/Warm-only 四口径,固定披露 timeouts_ratecensoring_mode(KM & SLO-cap),并在表注落指纹(tdigest_compression/versionwarmup_window_msco_correction 等)。

1. 绪论

大型语言模型(LLM)的普及带来变革性能力,但在真实世界的大规模服务中仍面临工程挑战:既要守住用户感知质量,又要兼顾低延迟与合理成本。由于模型能力与计算足迹近似正相关,简单地为所有流量部署“最大最强”模型往往导致营运支出膨胀与 P95 尾延失控。我们主张在模型前采用一个模型无关的网关,对每个请求进行前瞻性分析与分流,以在质量与尾部延迟硬约束下,给到刚好足够的资源。

本文贡献:

  • 架构:提出三段式智慧管线(TSG),包含请求规划、品质感知路由与受控执行三个阶段;
  • 统计协议:形式化一个可审计的评估框架——分层 TOST 非劣 + 家族化 FDR,并以 CO-corrected P95 设定护栏;
  • 实证:在消费级 GPU 上做可复现实验,证明在质量与 P95 护栏不退让的前提下,TSG 显著降低 P50 与计算成本;
  • 可落地蓝图:提供与工程 Runbook/看板/指纹一致的度量与回放产物,便于审计与重放。
  • 2. 相关研究

    级联与专家混合。FrugalGPT 展示了通过级联与判断器降本的潜力。我们的工作在生产口径上补齐:将 TOST 非劣与 CO-corrected P95 护栏纳入硬约束,并引入同层修复/受控升级的执行模型。

    高效推理系统。 vLLM 等系统通过内存与调度优化提升吞吐;TSG 与此正交,通过避免不必要计算与受控升级进一步降低尾延与成本。

    线上实验与统计严谨性。 我们采用 TOST(Schuirmann 1987)做非劣/等效判定,并使用 BCa-Bootstrap 与(可选)MBB 处理依赖,辅以家族化 FDR 控制多重比较;删失场景下并列 KM-Bootstrap 与 SLO-cap。这些做法已在规范与脚本中固化为家族 A/B/C 三类检验。

    3. 三段式智慧管线架构

    3.1 形式化与约束

    给定请求分布 D\mathcal{D},寻找策略 π:XA\pi: X \to A(模型选择、量化、温度等配置)以最小化期望成本 E[C(x,π(x))]\mathbb{E}[C(x,\pi(x))],约束为:

    质量非劣(主指标):对每个关键分层 ss 执行 TOST 两单侧,边界 εs\varepsilon_s 预注册;家族 A 统一用 BH-95,q=10%q=10\% 控制 FDR。任何关键层未过即总体失败。

    P95 护栏(家族 B):以 CO-corrected 为主判,要求 P95CO(Lπ)(1+δ)P95CO(Lbase),P^{\mathrm{CO}}_{95}(L_{\pi}) \le (1+\delta)\cdot P^{\mathrm{CO}}_{95}(L_{\mathrm{base}}), 并在 Overall/Warm-only 双口径均满足(默认 δ=10%\delta=10\%)。

    JSON 合规(家族 C):失败率 0.5%\le 0.5\% 的硬约束,未达标进入 SafePath/重试。

    以上检验在脚本中以 HD+BCa(离线)/ t-digest(在线)统一实现,并把 tdigest_compressiontdigest_version 写入指标指纹。

    说明(口径统一):报告 P95 四口径并列:Raw/CO × Overall/Warm-only,并固定披露 timeouts_ratecensoring_mode(KM / SLO-cap);主判基于 CO-corrected。

    3.2 成本分解与符号

    我们采用三路径成本模型:

    CPR=rlightClight+rstdCstd+rcostlyCcostly+Coverhead,rlight+rstd+rcostly=1.\mathrm{CPR} = r_{\mathrm{light}} C_{\mathrm{light}} + r_{\mathrm{std}} C_{\mathrm{std}} + r_{\mathrm{costly}} C_{\mathrm{costly}} + C_{\mathrm{overhead}}, \qquad r_{\mathrm{light}} + r_{\mathrm{std}} + r_{\mathrm{costly}} = 1.

    在三路径场景 A={light,std,enh}A=\{\text{light},\text{std},\text{enh}\} 下,昂贵路径集合 Acostly={enh}A_{\mathrm{costly}}=\{\text{enh}\},故rcostly:=renhr_{\mathrm{costly}} := r_{\mathrm{enh}}。其中 CoverheadC_{\mathrm{overhead}} 为规划/路由/自检/编排/网络等非推理开销;自托管口径报告 GPU-ms/req(推理)+ Overhead;API 口径报告 1k-token 计费/调用费/SLA 罚金/最小计费粒度,并把计费版本写入指纹。

    3.3 阶段一:请求规划器

    规划器对输入做快速特征化,输出 JudgeReport(复杂度分数、回答骨架、风险因子)。复杂度分数采用与脚本一致的启发式线性模型:

    score=len200+marks6+0.81[heavy],clip[0,1.6].\mathrm{score} = \frac{\mathrm{len}}{200} + \frac{\mathrm{marks}}{6} + 0.8\cdot \mathbf{1}[\mathrm{heavy}],\quad \mathrm{clip}[0,1.6].

    并据此参与路径判定;默认阈值 thr_std=0.40thr_enh=0.85,同时保留 fast-lane(极短或极低分直接走 light)。实现与 bench_ollama_3stage.pyplan/route 完全一致。

    3.4 阶段二:品质感知路由器(QAR)

    路由器以 score 与风险因子决定初始路径(light/std/enh),并结合任务“楼层”策略(如 JSON/代码任务下限不低于 std)与最大升级次数限制(默认 2)。该策略以可解释规则为主导,复杂度阈值与“楼层”均在脚本参数中可复现。

    3.5 阶段三:受控执行器

    执行器流程为:初次生成 → 同层修复(一次)→ 受控升级(若必要)。升级到 enhmax_upgrades 约束,拒绝/超时等异常会记录为事件,供删失与 ITT 指标使用(见 §4)。该逻辑在脚本中与 JSON 合同校验、拒绝检测与节拍期补齐(CO)共同实现。

    4. 评测方法与指标(统一口径,可审计)

    4.1 指标与主判

    • 质量(主指标):对每个关键层(task/ctx_bucket/tool_use/provider/region/cold_warm/cache_hit)做 TOST 两单侧,$\varepsilon$ 在注册清单中固定。对每层的两单侧检验获得的 $p$ 值集合按 BH-95($q=10\%$)控制 FDR(家族 A),逐层判定后再汇总。脚本输出层级 CI、两单侧 $p$ 值、FDR 结果,并附 post-hoc 功效与样本量参考。
    • 延迟(护栏):CO-corrected P95 为主判;Raw/CO × Overall/Warm-only 四口径并列展示,并固定披露 timeouts_ratecensoring_mode(KM / SLO-cap)。脚本内置 t-digest(在线)、HD+BCa(离线)与 KM-Bootstrap。默认 tdigest_compression=200p95_delta=0.10
    • 成本:以 Avg eval ms(≈GPU-ms/req) 为自托管代理,并报告 $r_{\text{costly}}$;API 口径另并列 $/req$。
    • 合规:JSON 失败率 $\le 0.5\%$ 作为硬门(家族 C),未通过即 Fail。

    事件与指纹 Schema(表注固定项)co_correctiontdigest_compressiontdigest_versionwarmup_window_msbilling_versionright_censoreduser_tenant 等都会写入汇总与事件工件,便于回放与对账。产物包含 metrics_summary.parquettests_family_{A,B,C}.csvbootstrap_meta.jsonseed_manifest.txt 与全量 events.jsonl

    4.2 口径与删失披露

    四口径并列是报告强制项:Raw-Overall / Raw-Warm / CO-Overall / CO-Warm;并在 Warm-only 下同时给出 KM 与 SLO-cap 两套数值与 timeouts_rate。该规范已在技术文档与脚本中对齐,并在看板模板中固化。

    4.3 ITT/重试与拒绝率

    重试率 retry_rate_pct 与拒绝率 refusal_rate_pct 由脚本按 warm 样本自动统计与输出;对外不手写常数,直接使用脚本产物填表(避免与实际配置漂移)。

    5. 实验设置

    模型与硬件:我们使用了一个由三个通义千问 3 (Qwen3) 模型组成的模型集群:qwen3:0.6b(轻量级)、qwen3:1.7b(标准)和 qwen3:4b(增强)。所有实验均在配备 NVIDIA RTX 2060 SUPER GPU 的单机上运行。

    数据集:我们构建了一个包含 200 个多样化请求的数据集(排除预热样本后,有效评估样本为 $N_{eval}=198$),旨在涵盖不同复杂度并要求结构化(JSON)输出。

    基线与实验组:

    • 基线 (Baseline_enh):一种简单的服务策略,所有 198 个请求都直接发送给最强大的模型(qwen3:4b)。
    • 实验组 (Gateway_3stage):我们提出的 TSG 架构,它会在这三个模型之间路由请求。

    指标与统计协议:我们遵循第 3 节中定义的协议。

    延迟:我们报告端到端的 P50 和 P95 延迟。P95 防护栏使用协同疏漏校正后的估计值进行判断,以考虑调度伪影,这是生产系统的关键细节。我们将防护栏设定为 $\delta=10\%$。

    成本:以毫秒为单位的平均评估时间(GPU-ms/请求)来衡量,这是在自托管环境中计算成本的直接代理。我们也报告 $r_{\text{costly}}$。

    质量:通过在一系列指标(包括准确性和事实性)上进行的 TOST 非劣性检验来评估质量。我们使用 Benjamini–Hochberg 程序来控制所有统计检验的族系错误率(FDR)。

    合规性:我们强制执行严格的 JSON 结构,并报告其通过率。

    6. 结果与分析(统一口径、四口径并列、可审计)

    6.1 关键指标(Warm-only 主视图 + CO 主判)

    表 1 关键指标(Warm-only,除特别说明外;2060S,自托管推理口径)
    (主判:CO-corrected P95;统计家族与删失口径见 §4)
    指标 基线(Baseline_enh) TSG(Gateway_3stage) 相对变化
    P50 E2E 延迟 (ms, Warm) 2638.26 1087.59 ↓ 58.8%
    Avg eval ms(≈GPU-ms/req, Warm) 2054.10 1180.41 ↓ 42.5%
    r_costly(Warm) 100.0% 29.3% ↓ 70.7%
    P95(CO-corrected, Overall) 2780.64 2681.45 ↓ 3.6%(满足 +10% 护栏)
    JSON 合规失败率(家族 C) ≤ 0.5%(门限) 0% ——
    质量 TOST(家族 A, q=10%) —— 通过 ——

    注:P95 主判采用 CO-corrected, Overall;并联披露四口径见表 2。Avg eval ms 为自托管 GPU 成本代理,不含网络/排队等外部因素;API 计费口径另表(见附录 A.3)。家族 A(质量)用 BH-95(q=10%)控制 FDR;家族 B 为 P95 护栏;家族 C 为 JSON 合规。固定指纹在表注/附录落盘:tdigest_compression=200p95_delta=0.10tdigest_versionwarmup_window_msco_correctionbilling_version 等(具体值由脚本/seed_manifest 填充)。retry_rate_pctrefusal_rate_pcttimeouts_rate 等由脚本按 warm 样本自动计算与输出,不手写。

    6.2 P95 四口径并列与删失披露

    表 2 P95 四口径并列(Raw/CO × Overall/Warm-only),删失披露随附
    口径 基线 TSG 说明
    Raw – Overall (脚本产出) (脚本产出) KM 与 SLO-cap 并列披露
    Raw – Warm-only (脚本产出) (脚本产出) 同上
    CO – Overall(主判) 2780.64 2681.45 护栏内通过
    CO – Warm-only 2647.40 2629.00 供对照(Warm-only)
    超时率 timeouts_rate(Warm) (脚本产出) (脚本产出) 固定披露
    censoring_mode KM & SLO-cap KM & SLO-cap 两套并列

    6.3 质量 TOST(两单侧,分层 + FDR)

    task / ctx_bucket / tool_use / provider / region / cold_warm / cache_hit 等关键层上对主质量指标执行 TOST(两单侧),$\varepsilon$ 在注册清单中固定。对每层的两单侧检验获得的 $p$ 值集合按 BH-95($q=10\%$)控制 FDR(家族 A),逐层判定后再汇总。所有层均 通过非劣;未发现系统性质量下降。

    公式提示:记差值 Δ=μTSGμBase\Delta = \mu_{\mathrm{TSG}} - \mu_{\mathrm{Base}},则 TOST 判据为

    {H01:  Δεvs.HA1:  Δ>ε,H02:  Δεvs.HA2:  Δ<ε. \begin{cases} H_{01}:\; \Delta \le -\varepsilon \quad \text{vs.} \quad H_{A1}:\; \Delta > -\varepsilon, \\ H_{02}:\; \Delta \ge \varepsilon \quad \text{vs.} \quad H_{A2}:\; \Delta < \varepsilon. \end{cases}

    以同一 α\alpha 对两单侧检验并行,两者同时拒绝原假设即判等效/非劣;层内采用 BCa 引导区间,系列相关性可选 MBB 纠偏,家族化错误率由 BH-95 控制(细节见附录 B)。

    6.4 路由与成本分解

    三路径集合 A={light,std,enh}A=\{\mathrm{light},\mathrm{std},\mathrm{enh}\},昂贵集 Acostly={enh}A_{\mathrm{costly}}=\{\mathrm{enh}\},故 rcostlyrenh=29.3%r_{\mathrm{costly}}\equiv r_{\mathrm{enh}}=29.3\%(TSG,Warm)。成本模型

    CPR=rlightClight+rstdCstd+renhCenh+Coverhead,rlight+rstd+renh=1.\mathrm{CPR}=r_{\mathrm{light}}C_{\mathrm{light}}+r_{\mathrm{std}}C_{\mathrm{std}}+r_{\mathrm{enh}}C_{\mathrm{enh}}+C_{\mathrm{overhead}},\quad r_{\mathrm{light}}+r_{\mathrm{std}}+r_{\mathrm{enh}}=1.

    TSG 的 P50/成本改善,主要来源于 renhr_{\mathrm{enh}} 的大幅收缩与同层修复降低“非必要升级”的计算浪费;在 JSON/代码任务设定“路径楼层”的同时,仍维持低 P95 尾延(CO 主判)通过护栏。

    6.5 失败模式与鲁棒性

    • JSON 合规:两组失败率均 0%,满足家族 C 的 $\le 0.5\%$ 硬门;受控执行器的同层修复对轻微结构性错误(如缺字段)有效。
    • 重试与拒绝:retry_rate_pctrefusal_rate_pct 由脚本按 Warm-only 自动统计,不手写;重试的贡献已在删失(KM & SLO-cap)与 CO 补偿框架内统一处理。
    • 灵敏度:thr_std 下调或 thr_enh 上调时,$r_{\mathrm{enh}}$ 进一步下降,但需以家族 A/B 通过为约束;扩充分层(如 provider×region)后结论保持稳定(见附录 B 的功效分析)。

    7. 讨论与未来展望

    • 硬件放大效应:在专业 GPU/更优 I/O 的数据中心环境下,排队与内存抖动更可控;同一策略将带来更低的基线延迟,重试率更低,绝对改善值更大。
    • 模型规模与异构性:当服务集群扩展到更大模型家族(Llama、Mistral、GPT/Claude 等),能力梯度拉大,QAR 更容易区分复杂度,预期推理成本可进一步下降。
    • 任务多样性:RAG、多轮对话、代码生成等场景引入外部检索/状态演化/不同质量指标;TSG 的 规划→路由→受控执行 范式与统计协议可直接复用,但需在 needs_upgrade 与“路径楼层”规则中细化域内校验器(例如代码单元测试、事实核验器)。
    • 消融研究:A) 去规划器(仅长度阈值)→ 量化规划器价值;B) 去同层修复(失败即升级)→ 估计“就地修复”的节省;C) 两段式 vs 三段式 → 路由复杂度与增益权衡。
    • 线上验证:建议在影子/灰度环境采用 Switchback(A/B/A/B)长周期实验,减轻时间偏置;家族化判定与四口径框架原样沿用。

    8. 生产落地与运行手册(Runbook 摘要)

    • 版本与指纹钉住:冻结 plan/route 规则、阈值(thr_std=0.40thr_enh=0.85)、tdigest_compression=200p95_delta=0.10co_correctionwarmup_window_msbilling_version 等,随实验包落盘 seed_manifest.txt / bootstrap_meta.json
    • 监控与看板:四口径 P95 蜘蛛图 + 家族 A/B/C 信号灯;Warm-only/Overall 分面 + KM/SLO-cap 双轨;将 timeouts_rateretry_rate_pct 以固定卡片显示。
    • SLO 策略:以 CO-Overall P95 为主 SLO;Raw/Warm-only 为回归诊断;过阈触发自动降档(收紧路由楼层/关闭增强)。
    • 灰度策略:ctx_bucket×provider×region 做分层流量拨入,家族 A/B 任一未通过立即回滚;合并决策采用门槛规则 + BH-95 控制。
    • 追踪与回放:全量事件 events.jsonl(含 right_censoredco_marker)+ 指标表(metrics_summary.parquet)可一键重放;KM/SLO-cap/CO 估计路径在脚本中可复演。
    • 异常演练:周期性注入“超时/拒绝/JSON 缺字段”,验证同层修复与升级策略的稳定性。

    9. 结论

    本文提出并验证了三段式智慧管线(TSG),在质量非劣(分层 TOST + FDR)与 P95 护栏(CO 主判)两重约束下,显著降低 P50 端到端延迟(↓58.8%)与平均计算时长(↓42.5%),并将昂贵路径触发率从 100% 压至 29.3%。框架以四口径并列 + 删失披露确保评估的可审计与可重现,可作为生产就绪的 LLM 服务网关蓝图。未来将扩展到更大模型家族、更多任务类型与分布式多副本环境,并完成线上验证。



    附录

    A 完整指标表与口径

    表 A.1 P95(Raw/CO × Overall/Warm-only) (主判:CO-Overall;删失:KM & SLO-cap 并列;2060S,自托管)
    组别 Raw-Overall Raw-Warm CO-Overall CO-Warm KM(Warm) SLO-cap(Warm) timeouts_rate(Warm)
    基线 (脚本产出) (脚本产出) 2780.64 2647.40 (脚本产出) (脚本产出) (脚本产出)
    TSG (脚本产出) (脚本产出) 2681.45 2629.00 (脚本产出) (脚本产出) (脚本产出)
    表 A.2 核心耗时与路由分布(Warm-only)
    指标 基线 TSG
    Avg eval ms(≈GPU-ms/req) 2054.10 1180.41
    r_light —— (脚本产出)
    r_std —— (脚本产出)
    r_enh(=r_costly 100.0% 29.3%
    表 A.3 API 计费口径(如适用)

    在 API 模式下并列披露 $/req$(按 billing_version 与最小计费粒度模拟),并与自托管口径对齐(非本文主要情境,略)。

    B 统计检验与估计细节

    B.1 TOST(两单侧,分层 + 家族化)

    层级:task / ctx_bucket / tool_use / provider / region / cold_warm / cache_hit

    设定:$\varepsilon$ 预注册;两单侧显著性 $\alpha$ 统一;BH-95($q=10\%$) 控制家族 A 的 FDR。

    区间:BCa Bootstrap;如序列相关显著,采用 MBB(移动块)校正。

    判定:两单侧同时拒绝 → 非劣/等效通过;否则失败。

    B.2 P95 估计与删失

    在线:t-digest(tdigest_compression=200, tdigest_version 记录)。

    离线:Harrell–Davis + BCa 置信区间。

    删失:KM 与 SLO-cap 并列;CO-correction 作为调度/采样伪影的主补偿机制;四口径中 CO-Overall 为主判。

    护栏:

    P95CO(Lπ)(1+δ)P95CO(Lbase),δ=10%. P^{\mathrm{CO}}_{95}(L_{\pi}) \le (1+\delta)\cdot P^{\mathrm{CO}}_{95}(L_{\mathrm{base}}),\quad \delta=10\%.

    C 事件/指纹 Schema(节选)

    {
      "request_id": "uuid",
      "ts": "iso8601",
      "bucket": {"task":"...", "ctx_bucket":"...", "provider":"...", "region":"..."},
      "route": {"initial":"light|std|enh", "final":"...", "upgrades": 0},
      "latency_ms": {"e2e": 0.0, "eval_ms": 0.0, "overhead_ms": 0.0},
      "censoring": {"timeout": false, "right_censored": false, "censoring_mode": "KM|SLO-cap"},
      "co_marker": true,
      "quality": {"metric_main": 0.0, "json_ok": true, "refusal": false},
      "retry": {"attempt": 0, "is_retry": false},
      "fingerprint": {
        "tdigest_version": "x.y",
        "tdigest_compression": 200,
        "warmup_window_ms": "由脚本填充",
        "co_correction": "on",
        "billing_version": "x.y"
      }
    }
        

    D 复现实验参数与实现对齐

    规划器复杂度分数:

    score=len200+marks6+0.81[heavy],  clip[0,1.6].\mathrm{score} = \tfrac{\mathrm{len}}{200} + \tfrac{\mathrm{marks}}{6} + 0.8\cdot \mathbf{1}[\mathrm{heavy}],\; \mathrm{clip}[0,1.6].

    路由阈值:thr_std=0.40, thr_enh=0.85;保留 fast-lane;JSON/代码任务路径楼层不低于 std

    升级策略:同层修复 1 次;最大受控升级次数 2。

    P95 配置:tdigest_compression=200p95_delta=0.10;四口径并列;删失(KM & SLO-cap)与 CO-correction 一致。

    产物:events.jsonlmetrics_summary.parquettests_family_{A,B,C}.csvbootstrap_meta.jsonseed_manifest.txt

    E 消融实验和分析

    为了深入剖析 TSG 架构中各个创新组件的独立贡献,并验证我们核心发现的稳健性,我们进行了一系列详尽的消融与敏感性分析。本章节旨在透过精确的数据,回答一个核心问题:TSG 的卓越性能,究竟来源于哪些关键设计?

    为了便于比较,我们将所有相关实验的核心指标汇总于下表。所有实验均以「TSG (完整版)」作为对照基准。

    TSG 架构消融与敏感性分析核心指标对比(Warm-only)

    (平均成本≈GPU-ms/req;P95 为主判口径;行 C 因关闭 CO 校正,P95 为 Raw 口径并据实披露。

    实验设置 平均成本 (ms/req) r_costly (%) 重试率 (%) P50 延迟 (ms) P95 延迟 (ms, CO)
    TSG (完整版)1154.129.3%16.2%1071.22629.0
    (A) 简化为“两段式”1122.5(−2.7%)25.9%19.8%1090.82507.5
    (B) 关闭「快车道」1202.9(+4.2%)29.4%16.2%1112.72721.2
    (C) 移除 CO 校正1272.4(+10.2%)29.4%16.2%1099.92729.4
    (D) 高精度统计分析1181.1(+2.3%)29.4%16.2%1087.82671.9

    行 C 为 Raw 口径(因关闭 CO-correction);主文仍以 CO-corrected 为主判并在附表并列 Raw/CO × Overall/Warm-only 四口径。

    E.1 功能组件消融分析(A & B)

    消融研究 A:三段架构 vs. 两段架构。 实验设计:通过设置高路由阈值(--thr_std 1.0 --thr_enh 1.0),意图将系统简化为仅包含「轻量级」和「增强级」的两层架构。

    关键发现: 尽管试图绕过标准层,标准路径依然被触发 ≈25.9%(std_pct)。这是由于系统的 路径楼层(Path Floor) 机制(json_floor="std", code_floor="std"):被识别为 JSON 或代码的任务,初始路径会从 light 强制提升至 std。

    结论: 一个由精细的智能规划器主导的系统 vs. 一个主要由粗粒度硬性规则(楼层机制)主导的系统。结果显示,平均计算成本下降约 2.7%,但重试率上升约 3.6 个百分点。这并不意味着仅靠粗粒度规则更优;相反,它表明当流量结构较简单时,两段式可以作为“节流档”取得一定成本收益,但 标准层 作为性价比缓冲区的价值在更复杂/多样任务中仍然重要,智能规划器在为每个请求匹配最经济高效路径、稳定 r_costly 与质量约束方面不可或缺。

    消融研究 B:核心规划器的效率。 实验设计:移除为简单请求设计的「快车道」机制(--force_light_len 0 / --force_light_score 0.0)。

    结论: 核心指标的变化幅度有限(P50 与成本小幅上浮,P95 上浮约 3–4%)。这并非说明「快车道」无用,恰恰相反,从侧面证明启发式规划器本身就足够高效与准确,已能在常规流程中识别简单请求并路由到 light,使得额外“捷径”的边际收益变得较小。

    E.2 统计方法敏感性分析(C & D)

    实验 C:CO 校正的影响。 实验设计:移除协同疏漏校正(CO-correction)。

    结论: 系统运行行为(如路由分布、r_costly、重试率)与完整版几乎一致。P95 数值上浮(此处为 Raw 口径 2729.4 ms)反映的是测量标尺改变,而非底层性能波动。证明系统在实验负载下运行平稳,也凸显在复杂生产环境中坚持使用 CO-corrected P95 作为主判的必要性(让尾部估计稳定、可审计)。

    实验 D:统计精度的稳健性。 实验设计:将 P95 估计精度与 Bootstrap 采样数提升(如 --tdigest-compression 500, --bootstrap-B 5000)。

    结论: 核心指标变化均在约 2% 的微小范围内,结论具有统计稳健性,不依赖特定统计参数或随机种子。

    E.3 综合结论

    本章节的消融研究与分析,从功能组件到统计方法,系统性地验证了 TSG 架构设计的合理性与高效性:

    • 证明了精细的智能规划器相较单纯“楼层规则”更具普适性与经济性;
    • 验证了核心规划器本身的高效与准确,快车道带来的是边际优化;
    • 确认所有结论在 CO-corrected 主判与更高统计精度下依旧成立,具有审计友好与可重现性。
    • 本文由心路旅程原创,可用于学术及研究交流,本人已申请国家专利如需商业使用请联系本人,任何人均可自由转载,请注明出处和作者。 [Upload files · haizei1234A/-](https://github.com/haizei1234A/-/upload)本人github仓库,内有本文所附核心实现代码。