如何解决级联路由的短难的问题4.3 阶段一：请求规划器（语义感知版）（一）复杂度估计：从启发式到语义增强引子：精准识

4.3 阶段一：请求规划器（语义感知版）

（一）复杂度估计：从启发式到语义增强

引子：精准识别“短而难”之敌

三段式智慧管线（TSG）的有效性，其根基在于第一阶段——请求规划器——的决策质量。这是一个系统的“前哨”与“大脑”，其核心使命是在请求进入昂贵的推理阶段之前，对其内在复杂度进行快速而精准的预判。然而，传统的、依赖浅层文本特征的启发式方法，在这里常常会遭遇其“天敌”：形式简短但需要深度推理的“短而难”（Short‑but‑Hard）请求。

一个仅依赖长度、标点或少数关键词的规划器，极易将一个精炼的哲学问题或一个复杂的逻辑推理题，错误地归类为“简单请求”并路由至“轻量级”（light）档位。这种“首跳失败”（First‑Hop Failure）会触发一系列代价高昂的连锁反应：从无效的“同层修复”，到最终的“受控升级”，不仅显著推高了 $\mathrm{P95}$ 尾部延迟，也增加了不必要的计算成本。

为此，本节的核心目标，是在保持原启发式规划器可复现性与低开销优势的前提下，为其注入语义感知（Semantic Awareness）的能力。我们通过引入两类零训练的语义信号与一次极为轻量的模型探针，构造出一个全新的复合复杂度分数。这个分数将作为后续品质感知路由器（QAR）进行决策的主要依据，旨在从源头上精准识别并“标记”出那些“短而难”的敌人，确保它们从一开始就获得应有的计算资源。所有因此新增的、微小的 token 开销，都将统一计入我们在 §4.2 中定义的、可审计的前置开销项 $C_{\mathrm{overhead}}$。

记号、对象与范围：界定本节的贡献边界

输入与特征：对于单个请求 $x$（包含完整的提示与上下文），规划器会观测其一系列可量化特征 $\mathbf f(x)$，这包括传统的启发式特征（如长度、标点），以及我们新引入的语义标签和探针分数。
输出：本节的核心输出是一个非负的实数分数，即复杂度分数 $\mathrm{score}(x)\in\mathbb R_{\ge 0}$。这个分数将被传递给下一阶段的路由器，用于与预设的阈值 $(\mathrm{thr}_{\texttt{std}},\,\mathrm{thr}_{\texttt{enh}})$ 进行比较，以完成到 light/std/enh 三个档位的路由决策。
范围声明：本节的所有改进，均严格限制在规划器内部的复杂度估计层面。它不改变我们在 §4.2 中建立的成本模型，也不影响 §2 中定义的统计口径和 §4.1 中设立的“家族 A/B/C”护栏。所有新增的 API 响应字段和日志字段，都将保持向后兼容（Backward‑Compatible）。这确保了新旧两个版本的规划器，可以在完全相同的“标尺”下进行公正的对比。

启发式基线分数：建立可复现的科学对照组

为了能够科学地衡量我们语义增强方法的净效应，并为其他研究者提供一个可复现的对照基准，我们保留并明确定义了一个纯粹基于启发式规则的基线分数 $\mathrm{score}_{\mathrm{base}}(x)$。这不仅是历史版本的再现，更是我们后续消融实验（Ablation Study）中不可或缺的“控制组”。

定义：

$$\mathrm{score}_{\mathrm{base}}(x)\;=\; \tfrac{\mathrm{len}(x)}{200}\; +\; \tfrac{\mathrm{marks}(x)}{6}\; +\; 0.8\cdot \mathbf{1}[\mathrm{heavy\_kw}(x)].$$

构成要素解析：

$\mathrm{len}(x)$：请求的近似长度，可以是字符数或更精确的 token 数。其具体的计算口径（例如，使用的 tokenizer、文本清洗规则、截断策略）将在附录中被严格固定，以确保可复现性。
$\mathrm{marks}(x)$：文本中出现的、常与复杂结构相关的标点符号计数（例如，逗号、句号、各类括号等）。
$\mathbf{1}[\mathrm{heavy\_kw}(x)]$：一个指示变量，当请求中命中如代码、JSON、分步骤、检索等预定义的“重关键字”或模板短语时，其值为 1，否则为 0。

设计抉择的说明：公式中的比例因子（分母 200 和 6）以及权重（系数 0.8）并非随意设定。它们旨在将三个不同来源的信号，大致归一化到可比较的数值量级（在典型请求下，每项的贡献约在 $[0,1]$ 区间），同时避免单一的关键词命中“一票否决”其他信号。这些常数是在独立的验证集上通过网格扫描校准得到的，其敏感性与最优区间的平坦性将在 §5 的实验部分进行报告。

对照作用：在我们的日志系统（events.jsonl）中，我们会将这个基线分数以 complexity_legacy = score_base 的形式被持久化记录。这使得我们在进行任何 A/B 测试的复盘或历史数据回放审计时，都有一个稳定不变的参照系。

语义信号与轻量探针：将“短而难”的内在复杂度显性化

为了克服 $\mathrm{score}_{\mathrm{base}}$ 仅依赖浅层特征的局限性，我们设计并引入了一套旨在显性化（make explicit）请求内在语义复杂度的信号系统。该系统由两类基于零训练规则的语义标签和一次轻量的模型探针调用构成，其设计哲学是在尽可能低的开销下，捕获启发式方法无法触及的深度信息。

语义重任务指示 $\mathbf{1}[\mathrm{semantic\_heavy}(x)]$
目的：识别那些本质上需要进行复杂逻辑、抽象思维或风格转换的任务。
标签集合：我们预定义了一组与深度推理强相关的任务标签，例如：{style_transfer, refutation, proof, debate, abstraction}。
识别方式：通过一套高效的短语子图与模式词典进行零训练匹配。这套词典包含了诸如“反驳”“辩难”“证明”“归纳”“悖论”“抽象化”“苏格拉底”等强信号词或短语（修正原文“苏格格拉底”为“苏格拉底”）。这种方式无需任何模型训练，保证了极低的延迟和完全的可解释性。
合规高风险域指示 $\mathbf{1}[\mathrm{risk\_domain}(x)]$
目的：识别那些涉及法律、医疗、金融等合规性高风险领域的请求，这些请求通常需要更强的模型来保证回答的准确性与合规性。
标签集合：{legal, medical, finance}。
作用：一旦命中，此信号将作为强提醒，用于触发“路径楼层”（Route Floor）策略，以避免因首跳误路由至轻量级模型而引发的潜在风险。
轻量语义探针 $\mathrm{probe\_difficulty}(x)$
目的：在规则无法覆盖的场景下，利用 LLM 自身的语义理解能力，对请求的推理复杂度进行一次低成本的“摸底”。
执行方式：我们设计了一个固定且高度优化的提示（Prompt），向最轻量级的（light）模型发起一次调用，并要求其仅返回一个 $[0,1]$ 区间内的数字，用以度量“要完美回答此问题所需的推理复杂度”。整个过程的生成长度被严格限制在 $\le 24$ tokens 以内，确保其开销极低。
可审计性：为确保该过程完全可复现与审计，系统会持久化记录探针的得分、其实际消耗的 token 数（probe_tokens），以及所用提示的哈希值（probe_prompt_hash）。所有开销均计入 §4.2 定义的 $C_{\mathrm{overhead}}$。

复合复杂度分数：公式、性质与实例

上述三类信号为我们提供了丰富的语义信息。现在，我们将它们与启发式基线分数 $\mathrm{score}_{\mathrm{base}}(x)$ 进行线性加权组合，形成最终的、更鲁棒的复合复杂度分数 $\mathrm{score}'(x)$。

公式定义：

$$\mathrm{score}'(x)\;=\; \mathrm{score}_{\mathrm{base}}(x)\; +\; \alpha\,\mathrm{probe\_difficulty}(x)\; +\; \beta\,\mathbf{1}[\mathrm{semantic\_heavy}(x)]\; +\; \gamma\,\mathbf{1}[\mathrm{risk\_domain}(x)].$$

参数与性质：

默认权重：我们设定 $(\alpha,\beta,\gamma)=(0.40,\,0.20,\,0.20)$。这些值并非随意设定，而是在独立的验证集上，以“在不违反 §4.1 护栏的前提下，最大化地降低误判率（包括将难题误判为简单，或将简单题误判为困难）”为目标，通过网格搜索得到的。其在不同分布下的鲁棒性将在实验部分进行报告。
单调性（Monotonicity）：由于三个增益项均为非负，新分数永远不会低于基线分数（$\mathrm{score}'\ge\mathrm{score}_{\mathrm{base}}$）。这确保了我们的语义增强机制是一个纯粹的“安全网”，它只负责“纠正低估”，绝不“制造低估”。
有界性（Boundedness）：增益部分具有明确的理论上界 $\alpha+\beta+\gamma$。这使得分数的数值范围相对稳定，便于路由阈值在不同模型或版本间的迁移。
可解释性（Interpretability）：分数的每一个组成部分，都直接对应着日志中一个可观测的字段。这使得对于任何一个请求，我们都可以清晰地追溯其最终得分的来源，极大地提升了系统的可审计性。

可追踪示例：“忒修斯之船”哲学悖论

为了直观地展示该复合分数如何有效修正启发式方法的误判，我们追踪一个典型的“短而难”请求：

请求文本（节选）：“请用 150 字以内评析‘忒修斯之船’悖论，并在最后一句给出你的立场。”

启发式特征：文本简短，标点少。观测到 $\mathrm{len}\approx 10$ tokens，$\mathrm{marks}=1$，heavy_kw 未命中。

基线分数的误判：$$\mathrm{score}_{\mathrm{base}}=10/200+1/6+0.8\times 0\approx 0.217.$$ 这是一个非常低的分数，几乎必然导致请求被错误地路由至 light 档位。

语义增强的修正：

语义标签：请求内容命中了词典中的“悖论”“立场”等词，触发 semantic_heavy = {debate, abstraction} 标签，故 $\mathbf{1}[\mathrm{semantic\_heavy}]=1$。
轻量探针：轻量级模型认为这是一个需要深度推理才能回答的问题，返回了很高的复杂度分数 $\mathrm{probe\_difficulty}=0.9$。

复合分数的最终裁决：$$\mathrm{score}'\;\approx\;0.217\; +\; 0.40\times 0.9\; +\; 0.20\times 1\; +\; 0.20\times 0\;=\;0.777.$$ 该高分将确保该请求在后续的路由阶段，至少被分配到 std 档位，从而成功避免一次代价高昂的首跳失败。这一例子清晰地证明了语义增强方法在识别“短而难”问题上的决定性作用。

与路由器的接口：从“分数”到“行动建议”

主要路由信号：最终的复合分数 $\mathrm{score}'(x)$，将作为主要的连续值信号，被传递给 §3.4 的品质感知路由器（QAR）。QAR 将依据此分数与预设阈值 $(\mathrm{thr}_{\texttt{std}},\,\mathrm{thr}_{\texttt{enh}})$ 的比较，来做出其核心的三档路由决策。
路径楼层建议（安全否决权）：除了连续的分数，规划器还会给出一个离散、具有“一票否决”性质的路径楼层建议 $\mathrm{route\_floor\_reco}(x)$，其计算方式如下：
$$\mathrm{route\_floor\_reco}(x)\;=\;\max\{\,\texttt{light},\; \mathbf{1}[\mathrm{semantic\_heavy}(x)]\cdot\texttt{std},\; \mathbf{1}[\mathrm{risk\_domain}(x)]\cdot\texttt{std}\,\}.$$
该 max 函数保证：只要一个请求被规则系统标记为“语义重”或“高风险”，其首跳档位的最低建议就绝不会低于 std 档。这一道额外的“安全锁”，与系统中已有的“JSON/代码任务楼层不低于 std”规则，共同构成规划器的核心风险规避策略。

结果写入与成本口径：确保端到端的可审计性

为了将规划器的每一个“思考”痕迹都转化为可供审计的证据，我们对其输出的数据契约和成本计量口径进行了严格的规定。

/plan API 与事件日志（events.jsonl）：为实现最小侵入和向后兼容，所有新增的判定结果均作为可选字段，同时添加到 /plan 的 API 响应体与事件日志，包括：

semantic_heavy[]、risk_domain[]：命中的语义与风险标签数组；
probe_difficulty、probe_tokens、probe_prompt_hash：探针的完整审计踪迹；
route_floor_reco：最终的路径楼层建议；
complexity_legacy、complexity：新旧两个版本的复杂度分数，用于对照分析。

成本口径的对齐：我们严格遵守 §4.2 建立的成本账本原则。所有由本节引入的额外计算开销——即 probe_tokens 和后续 preflight 的 token 消耗——都统一、透明地计入总览开销项 $C_{\mathrm{overhead}}$。这确保了三路径成本分解模型的纯粹性与可审计性，绝不会将前置规划的成本与后端推理的成本相混淆。

作用与必要性：这套复杂的公式究竟能做什么？

最终，我们回归到本节所有设计的核心价值。这套从启发式演进到语义感知的复杂规划器，为整个 TSG 系统带来了三个层面的、决定性的收益：

显著减少首跳失败：通过将“短而难”请求的内在语义和风险属性显性化，复合分数 $\mathrm{score}'$ 和路径楼层策略，能够让这些高风险请求在首跳时就获得更匹配其真实难度的计算资源（如更高的档位、更合适的解码温度）。这从根本上降低了因误判而导致的“失败生成 → 昂贵重试”的完整往返次数，是优化尾部性能的关键第一步。
实现更稳健的成本节约：更准确的请求分流，意味着更少的“简单”请求会被错误地升级到 enh 档位，也更少的“困难”请求需要在低档位上反复失败后才最终升级。在不触碰 §4.1 护栏的前提下，这将在 §4.2 的成本账本中，直接体现为昂贵路径占比（$\downarrow r_{\mathrm{enh}}$）的稳定下降，从而实现可持续的、非机会性的成本节约。
提供无可比拟的可审计性：由于分数的每一个增益项、每一个楼层建议，都在日志中留下了清晰、可追溯的字段，我们的系统获得了强大的“因果归因”能力。对于任何一次成功的路由或失败的案例，我们都可以进行逐请求的“决策复盘”，或进行跨分层的“贡献度分析”，极大地提升了系统的可解释性。

小结

本节完整地阐述了我们从一个简单的启发式基线，到一个包含语义信号、轻量探针与前置体检的、复杂的语义感知规划器的演进过程。其核心贡献，在于通过一个可解释的复合复杂度分数 $\mathrm{score}'(x)$，成功地将那些“看起来很短”的简单问题与那些“真的很难”的复杂问题区分开来。在不改变上层成本模型与统计口径的严苛约束下，这个经过精心设计的规划器，为后续的路由与执行阶段，提供了一个远比传统方法更稳健、更可靠、信息含量更丰富的决策信号，并将其所有的观测与开销，都纳入了我们端到端可审计的统一账本之中。