TaoSR1：面向电商搜索相关性的推理模型TaoSR1：面向电商搜索相关性的推理模型 1. 论文核心信息速览 1.1 基

TaoSR1：面向电商搜索相关性的推理模型

1. 论文核心信息速览

1.1 基本信息

标题：TaoSR1: The Thinking Model for E-commerce Relevance Search（TaoSR1：面向电商搜索相关性的推理模型）
作者单位：核心研发团队来自阿里巴巴集团淘宝天猫事业群，合作单位包括清华大学、复旦大学
发表平台：arxiv.org/pdf/2508.12…
核心目标：解决电商搜索中“查询-商品相关性预测”的复杂推理问题，直接将大语言模型（LLM）部署到在线系统，替代传统BERT类模型

1.2 核心亮点/重要结论

框架创新：提出三阶段LLM优化框架（SFT+CoT→Pass@N-DPO→GRPO+难度采样），首次实现LLM在电商相关性预测的直接在线部署，避免传统LLM“蒸馏到BERT”的能力损耗
痛点解决：
- 用“Post-CoT”（先输出标签、再生成推理链）解决Chain-of-Thought（CoT）的误差累积和部署延迟问题
- 用“Pass@N-DPO+GRPO”缓解LLM的判别式幻觉（推理链正确但最终标签错误）
- 用“CumPT（累积概率分层）”将传统方法的4+超参简化为1个，降低部署复杂度并提升稳定性
性能突破：
- 离线实验：在7万条难查询标注数据上，macro-F1达67.12，比基线LLM-base（Tbstar-42B）提升4.9个百分点，Class-3（Related）F1从32.91提升至44.94（复杂推理能力显著增强）
- 在线实验：“替代类查询”（如“Miumiu平替”）的GSB（相对优势）+34.43%，Query Goodrate（页面级相关性）+13.11个百分点，Item Goodrate（商品级相关性）+10.69个百分点
方法论价值：为LLM在“分类任务”（非生成/数学/编程）中的应用提供范式，证明“推理链+强化学习”可平衡复杂任务能力与系统部署约束

2. 研究背景与问题提出

2.1 电商搜索相关性的核心价值

电商平台（如淘宝、亚马逊）每日需处理数亿用户查询，从千万级商品库中返回“查询-商品高度相关”的结果——这直接决定：

用户体验：避免无关商品浪费浏览时间，提升购物效率
商家价值：相关商品获得更多曝光，降低无效流量成本
平台生态：长期用户留存与商家信任的基石

相关性预测的本质是“多分类任务”：淘宝场景中定义4级标签（从高到低）：

L4（Excellent）：商品与查询完全匹配（如“iPhone 15 256G”→“iPhone 15 256G 黑色”）
L3（Related）：商品与查询部分匹配（如“Mate50”→“Mate50 Pro”）
L2（Mismatch）：商品与查询部分不匹配（如“Mate50 Pro”→“Mate50”）
L1（Irrelevant）：商品与查询完全无关（如“口红”→“运动鞋”）

2.2 现有方法的演进与痛点

相关性预测技术经历了4代演进，但均存在明显局限：

技术阶段	代表方法	优势	核心痛点
1. 特征工程	TF-IDF、BM25	简单易部署	依赖人工特征，无法理解语义（如“平替”≠“原品牌”）
2. 深度学习表征	CNN/RNN嵌入	可学习语义特征	缺乏领域知识，复杂规则无法建模
3. BERT类预训练	BERT（24层）、ReprBERT	双向注意力+电商预训练，文本匹配能力强	1. 参数量受限（低秩注意力问题），复杂推理弱；2. 仅处理80-90%简单查询，10%长尾难查询（否定/替代/QA）效果差
4. 早期LLM应用	RankLLaMA、LREF	理解与推理能力优于BERT	1. 仍用“判别式范式”（输出标签概率），浪费LLM生成能力；2. 最终需蒸馏到BERT部署，推理能力损耗；3. 直接部署面临3大挑战（见2.3）

2.3 核心挑战：LLM直接部署的三大障碍

论文指出，要将LLM直接用于在线相关性预测，必须解决以下3个关键问题：

挑战1：部署延迟（Deployment Latency）

CoT是提升LLM推理能力的核心手段，但会增加输出token数量（推理链通常含50-100token）
在线场景中，1个查询需计算数百个候选商品的相关性，生成数百条CoT会导致延迟超1000ms（远超电商搜索200ms的 latency 要求）

挑战2：CoT误差累积（Error Accumulation in CoT）

CoT通过“分步推理”提升能力，但中间步骤的微小误差（如误解“Mate50 Pro”的“Pro”含义）会不断累积，最终导致标签错误
例：查询“Mate50 Pro”→商品“Mate50”，CoT若误判“Pro是可选配置”，则会错误输出L3（Related），而非正确的L2（Mismatch）

挑战3：判别式幻觉（Discriminative Hallucination）

即使CoT推理链完全正确，LLM仍可能输出与推理矛盾的标签（如推理链明确“商品是Miumiu原品，非平替”，但标签仍标为L4）
原因：LLM在“分类任务”中易受训练数据分布偏差影响，忽略推理链逻辑，沦为“记忆式判别器”

3. 相关工作梳理

论文通过“相关性搜索”“推理LLM”“强化学习for分类”三个方向，明确自身创新定位：

3.1 相关性搜索（Relevance Search）

传统方法：TF-IDF/BM25（人工特征）→CNN/RNN（表征学习），均缺乏语义理解能力
BERT时代：BERT通过双向注意力建模复杂语义，但参数量受限（通常≤1B），推理能力天花板低
LLM时代：LREF、ProRBP等工作尝试用LLM做相关性预测，但均采用“判别式训练”或“蒸馏到BERT”，未解决复杂推理与在线部署的矛盾——本文首次实现LLM直接部署

3.2 推理LLM（Reasoning LLMs）

早期方法：Prompt Engineering（如“让模型分步思考”）、SFT（用推理链数据微调），但跨领域泛化差（数学推理好，电商推理差）
RL驱动推理：o1（OpenAI）、DeepSeek-R1通过PPO/GRPO强化学习提升推理能力，但仅聚焦数学/编程领域——本文首次将RL推理引入电商垂直领域

3.3 强化学习for分类（RL for Classification）

现有研究（如GenCLS++）发现：LLM在分类任务中，“不输出推理链”或“推理链在标签后”的效果更好，但未深入优化
Li et al. 尝试用RL优化多模态分类，但未解决“判别式幻觉”与“数据分布偏差”问题——本文通过“难度采样+数据平衡”提升RL在分类任务的有效性

4. 技术方案详解：TaoSR1框架

TaoSR1的核心是“三阶段优化+两大部署创新”，从“能力构建→误差修正→幻觉缓解→高效部署”全流程解决LLM应用痛点。框架整体：

4.1 问题定义

将电商相关性预测形式化为多分类任务：

输入： $x =$ （查询文本+商品信息，如标题、属性）
输出：（相关性标签）
在线目标：将输出映射为“Good（L4/L3）、Mid（L2）、Bad（L1）”三档，用于商品排序

4.2 第一阶段：SFT with CoT——构建基础推理能力

4.2.1 为什么需要SFT？

LLM预训练（如Tbstar-42B）仅具备通用语言能力，需通过监督微调（SFT） 适配电商相关性任务——但传统SFT存在致命问题：

传统SFT（判别式）	本文SFT（生成式）
目标：输出标签概率（如P(L4)=0.8）	目标：直接生成标签文本（如“4-Excellent”）
损失：MSE（回归）或CE（分类）	损失：语言模型损失（LM Loss，式5）
问题：LLM沦为“判别器”，浪费生成能力，无法引入推理链	优势：保留LLM生成能力，可后续加入CoT推理，且能提取连续分数（首token概率）

4.2.2 生成式SFT的数学定义

模型输出：对于输入，模型生成标签文本（如“4-Excellent”），取第一个生成token（即“4”“3”“2”“1”）的概率作为相关性分数
损失函数（LM Loss） ：

$\begin{align} \mathcal{L}_{lm}(\pi)$

：模型条件概率分布（给定输入和已生成token，生成下一个token的概率）
：训练数据集（$$三元组）
：token位置，：标签文本的token长度（如“4-Excellent”含2个token）

连续分数提取：将首token（“4”“3”“2”“1”）的概率作为后续分层依据：

$\begin{align} \mathbf{P}\left(y_1 = c \mid \mathbf{x}\right)$

：第一个生成token
：token“c”（c∈{1,2,3,4}）在模型词表中的索引
：首token为“c”的概率（如是生成“4”的概率）

4.2.3 加入CoT：让LLM理解电商业务规则

单纯生成标签无法让LLM掌握电商复杂的相关性规则（如“Mate50”与“Mate50 Pro”的差异、“平替”的语义），因此引入Chain-of-Thought（CoT，思维链） ——让模型输出“推理步骤+标签”，强制其学习业务逻辑。

4.2.3.1 CoT的核心设计：5步结构化推理

为避免CoT杂乱无章，论文定义统一的5步推理框架，覆盖电商相关性判断的全流程：

Query Understanding（查询理解） ：解析查询意图（如“Miumiu平替”→“寻找与Miumiu风格相似、价格更低的替代商品”）
Product Comprehension（商品理解） ：提取商品关键属性（如“Miumiu 2024新款钱包”→品牌=Miumiu，品类=钱包，年份=2024）
Category Matching（品类匹配） ：判断商品品类与查询是否一致（如“钱包”→“钱包”一致，“口红”→“钱包”不一致）
Attribute Matching（属性匹配） ：对比关键属性（如“平替”→商品品牌≠Miumiu，“Mate50 Pro”→商品型号含“Pro”）
Relevance Class Determination（相关性判定） ：结合前4步，引用业务规则输出标签（如“商品是Miumiu原品，不符合‘平替’查询→L2-Mismatch”）

4.2.3.2 RAG辅助CoT生成：引入业务规则

电商业务规则复杂（如不同品类、品牌的匹配逻辑不同），直接将所有规则写入Prompt会导致上下文过长（>4096token），因此用Retrieval-Augmented Generation（RAG，检索增强生成） 生成CoT：

步骤1：构建“原子规则知识库”
- 将完整业务规则拆解为“细粒度原子规则”（如“手机品类：查询含‘Pro’而商品不含→L2”“箱包品类：查询含‘平替’而商品是原品牌→L2”）
- 为每个原子规则标注元数据（品类、品牌、属性类型），便于检索
步骤2：标注“原子因素”
- 人工标注训练数据时，额外标注每个样本对应的“原子规则ID”（如“Mate50→Mate50 Pro”对应规则“手机品类：查询不含‘Pro’而商品含→L3”）
步骤3：动态检索+CoT合成
- 对每个训练样本$$，根据“原子因素”检索知识库中的对应规则
- 用强推理模型DeepSeek-R1，以“<prompt模板 + 检索到的规则 + x + y>”为输入，生成符合5步框架的CoT
- 最终训练数据格式：$$（如“Miumiu平替”→“XX品牌钱包”→“1. 查询理解：寻找Miumiu平替...5. 判定：商品是原品牌→L2”→“2-Mismatch”）

4.2.4 Post-CoT：解决CoT的误差与延迟问题

传统CoT采用“think-then-respond”范式（先输出推理链，再输出标签），但会导致：

误差累积：前4步推理的微小错误会影响标签
延迟高：推理链需先生成，再生成标签，增加token数量

论文提出Post-CoT范式（respond-then-think） ：先输出标签，再输出推理链——核心逻辑是“标签由模型直接判断，推理链用于验证与修正（而非决定标签）”。

效果对比（离线数据） ：

模型	macro-F1	Accuracy	核心原因
TaoSR1(CoT)（传统）	51.54	68.22	误差累积，推理链错误导致标签错
TaoSR1(CoT) postCoT	60.01	75.12	先标签后推理，缓解误差累积

4.3 第二阶段：Pass@N-based DPO——修正CoT误差

SFT+CoT后，模型具备基础推理能力，但仍存在“部分样本多次采样才能正确”的问题——论文发现：模型的pass@N准确率（对一个样本采样N次，至少1次正确的概率）随N增加显著提升（表1），说明模型有“自我修正”的潜力。

表1：pass@N采样结果（TaoSR1(CoT)）

模型/指标	Accuracy（单采样）	Pass@1	Pass@2	Pass@3	Pass@4	Pass@5
LLM-base	75.01	-	-	-	-	-
TaoSR1(CoT)	-	67.38	74.26	77.68	80.18	81.73

基于此，论文提出Pass@N-based DPO（直接偏好优化） ——通过构建“正确/错误”的偏好样本对，让模型学习“选择正确推理路径”。

4.3.1 DPO的核心思想

DPO无需训练单独的“奖励模型”，直接通过“chosen（正确样本）”和“rejected（错误样本）”的对比，优化模型参数——目标是让模型对“chosen”的概率高于“rejected”。

4.3.2 偏好数据集构建：分两类样本处理

论文将训练集分为“可解决样本（pass@N>0）”和“难样本（pass@N=0）”，分别构建偏好对：

1. 可解决样本（pass@N>0）：自我修正

对每个样本，用TaoSR1(CoT)采样N次（论文N=5）
从采样结果中选1个正确输出作为“chosen（y⁺）”，1个错误输出作为“rejected（y⁻）”
形成偏好对： $![]()D_{pass}$

2. 难样本（pass@N=0）：Oracle引导修正

这类样本是模型“持续犯错”的硬骨头，自我采样无法获得正确输出
用更强的推理模型DeepSeek-R1（Oracle）生成正确输出作为“chosen（y⁺）”，用TaoSR1(CoT)的错误输出作为“rejected（y⁻）”
形成偏好对： $![]()D_{pass}'$ （覆盖约50%的pass@N=0样本）

4.3.3 DPO损失函数

模型在上最小化以下损失：

$\begin{align} \mathcal{L}_{\text{DPO}}\left(\pi_{\theta}; \pi_{\text{ref}}\right)$

符号解释：

：当前待优化的模型（TaoSR1(CoT)）
：参考模型（通常是SFT后的模型，固定参数）
：温度参数（论文取0.1，控制偏好的强度）
：sigmoid函数（将差值映射到[0,1]，确保损失可优化）
：当前模型对“chosen”的概率比参考模型高多少（越大越好）
：当前模型对“rejected”的概率比参考模型高多少（越小越好）

核心逻辑：通过sigmoid函数，让“chosen相对于参考模型的优势”减去“rejected相对于参考模型的优势”的结果趋近于1（即，损失最小）。

4.3.4 DPO的效果

模型	macro-F1	Class-3 F1	核心提升
TaoSR1(CoT) postCoT	60.01	27.91	基础推理能力
TaoSR1(CoT&DPO) postCoT	65.03	39.43	DPO修正CoT误差，复杂推理增强

4.4 第三阶段：GRPO with Difficulty-based Sampling——缓解判别式幻觉

DPO解决了“CoT误差”，但仍存在“判别式幻觉”（推理链正确但标签错误）——原因是DPO的“离线采样”无法覆盖在线场景的所有复杂情况，且数据分布不均衡（如L4样本占50%，L3仅占5%）。

论文提出GRPO（Group Relative Policy Optimization，群体相对策略优化）+ 难度动态采样，通过“在线多采样+聚焦难样本+数据平衡”进一步提升模型稳定性，缓解幻觉。

4.4.1 GRPO与DPO的核心差异

GRPO是在PPO（近端策略优化）基础上改进的RL算法，比DPO更适合“在线多采样”场景：

DPO：离线构建偏好对，优化“静态样本”
GRPO：在线对每个样本采样多个输出（论文采样16次），构建“群体内相对偏好”，优化“动态样本”

4.4.2 难度动态采样：聚焦有价值样本

传统RL采样会包含“全对”或“全错”的批次，这些样本对训练无价值：

全对批次：样本太简单，模型已掌握，梯度趋近于0
全错批次：样本太难，模型缺乏必要知识，采样再多也无法正确

论文提出难度动态采样策略：

对每个样本，在线采样G个输出（论文G=16）
计算该批次的“ empirical accuracy”（正确输出占比）
仅保留“empirical accuracy ∈ (0, γ)”的批次（论文γ=0.99），丢弃全对（=1）或全错（=0）的批次
对保留的批次，计算“群体内相对优势”，用于梯度更新

4.4.3 数据平衡：降低标签分布偏差

论文发现：GRPO训练数据的标签分布变异系数（CV） 与模型性能呈强负相关（CV越小，分布越平衡，性能越好）。因此：

对训练集进行“下采样”：将L4（50%）、L2（36%）、L1（9%）的样本数量下采样到与最小类L3（5%）一致
最终训练集标签分布：L1:L2:L3:L4=25%:25%:25%:25%（CV=0）

4.4.4 GRPO损失函数

![](<juejin.im/equation?te… & \mathbb{E}{(x, y) \sim \mathcal{D},\left{\sigma{i}\right}{i=1}^{G} \sim \mathcal{D}} \ & {\left[\frac{1}{G} \sum{i=1}^{G} \frac{1}{\left|o_{i}\right|} \sum_{t=1}^{o_{i}} min \left(r_{i, t}(\theta) \cdot \hat{A}{t}, clip\left(r{i, t}(\theta), 1-\epsilon, 1+\epsilon\right) \cdot \hat{A}{t}\right)\right.} \ & \left.-\beta \cdot D{KL}\left(\pi_{\theta} | \pi_{r e f}\right)\right] \ s.t. & 0<|\left{o_{i} | o_{i} \text{ 与 } y \text{ 一致}\right} |<\gamma \end{align} \tag{9} >)

符号解释：

：每个样本的采样次数（论文G=16）
：第i个采样输出
：第i个采样输出的token序列
：重要性采样比（当前模型与旧模型在第t个token的概率比，避免更新幅度过大）
：标准化优势（当前采样输出的奖励与群体平均奖励的差值，标准化后更稳定）
：PPO裁剪参数（论文取0.2，限制在[0.8,1.2]，避免梯度爆炸）
：KL散度正则化（确保当前模型与参考模型差异不大，避免灾难性遗忘）
约束条件：仅保留“正确输出数量在(0,γ)”的批次

4.4.5 GRPO的效果

模型	macro-F1	判别式幻觉率（失败案例中）	核心提升
TaoSR1(CoT&DPO) postCoT	65.03	25%	修正CoT误差
TaoSR1(CoT&DPO&GRPO) postCoT	67.12	17.5%（降低30%）	缓解判别式幻觉，数据平衡生效

4.5 部署创新：CumPT——简化分层与提升稳定性

在线部署时，需将模型输出的“4级标签概率”映射为“Good/Mid/Bad”三档，用于商品排序。传统方法存在“超参多、调参难、性能不稳定”的问题，论文提出CumPT（Cumulative Probability Tiering，累积概率分层） 解决。

4.5.1 传统分层方法的痛点

传统方法需手动调整多个超参，且性能对超参敏感：

MSE训练模型：需设置2个“分数锚点”（如L1=0，L4=1，L2=α₁，L3=α₂）+2个“阈值”（β₁，β₂），共4个超参
CE训练模型：需设置4个“概率权重”+2个阈值，共6个超参
例：当β₂从0.3调整到0.7时，传统方法的Online Macro F1从41.42波动到65.26（表7），稳定性极差

4.5.2 CumPT的核心思想

基于“标签优先级”（L4>L3>L2>L1），累积概率并与“单超参β_cum”比较——无需手动设置锚点或权重，仅需调整β_cum即可控制“Good/Mid/Bad”的比例。

4.5.3 CumPT算法步骤（Algorithm 1）

示例：

样本A：(p1)id(4)=0.6，(p1)id(3)=0.2，β_cum=0.5→步骤1：0.6≥0.5→Good
样本B：(p1)id(4)=0.4，(p1)id(3)=0.2，β_cum=0.5→步骤2：0.4+0.2=0.6≥0.5→Good
样本C：(p1)id(4)=0.3，(p1)id(3)=0.1，(p1)id(2)=0.4，β_cum=0.5→步骤3：0.3+0.1+0.4=0.8≥0.5→Mid
样本D：(p1)id(4)=0.2，(p1)id(3)=0.1，(p1)id(2)=0.1，β_cum=0.5→步骤4：0.4<0.5→Bad

4.5.4 CumPT的优势（实验对比）

表7：传统方法与CumPT的性能对比（β_cum=β₂）

方法	阈值	macro-F1（离线）	Online Macro F1	Good F1	超参数量
传统方法	β₂=0.3	67.12	41.42	73.66	4+
传统方法	β₂=0.5	67.12	64.83	80.43	4+
传统方法	β₂=0.7	67.12	56.83	81.05	4+
CumPT	β_cum=0.3	67.12	67.05	85.37	1
CumPT	β_cum=0.5	67.12	67.14	81.04	1
CumPT	β_cum=0.7	67.12	67.17	81.51	1

核心结论：

稳定性：CumPT的Online Macro F1始终稳定在67左右，传统方法波动达23个百分点
简便性：仅需调整1个超参，避免传统方法的“网格搜索调参”（需数天时间）
性能：CumPT的Good F1普遍高于传统方法，说明分层更精准

5. 实验设计与结果分析

5.1 实验 setup

5.1.1 数据集

来源：淘宝在线搜索日志，手动标注的query-item对（7万条）
查询类型：聚焦4类难查询（覆盖电商场景的核心复杂需求）：
1. 否定类（如“短袖不粘毛”）
2. 替代类（如“Miumiu 平替”）
3. QA类（如“什么药能让头发变黑”）
4. 知识类（如“不怕车压的油漆”）
标签分布（表3）：L4(50%)、L3(5%)、L2(36%)、L1(9%)——相关样本（L4+L3）与非相关样本（L2+L1）比例约1:1，避免类别不平衡影响评估

5.1.2 基线模型

基线模型	模型配置	训练方式
BERT	24层，电商语料预训练（淘宝内部数据）	判别式SFT（CE损失）
Qwen3-0.6B	0.6B参数量，稠密模型（开源）	生成式SFT（LM损失）
Qwen3-30B-A3B	30B总参数量，MoE架构（3B激活参数量，开源）	生成式SFT（LM损失）
LLM-base	Tbstar-42B（淘宝自研LLM），MoE架构（42B总参，3.5B激活参），电商语料预训练	生成式SFT（LM损失）

5.1.3 评估指标

离线指标：macro-F1（平衡各类别权重，避免受样本量影响）、各类别F1、Accuracy
在线指标（人工侧评，2000个查询，对比top10结果）：
1. GSB（Good/Same/Bad）：测试组比基线组“更好”的比例（如GSB+16.62%=16.62%的结果测试组更优）
2. Query Goodrate：页面级相关性（查询结果页被评为“Good/Mid”的比例），绝对提升
3. Item Goodrate：商品级相关性（高度相关商品L4/L3的比例），绝对提升

5.2 离线实验结果：能力验证

表2：离线评估结果（核心模型对比）

模型	Class-1 F1	Class-2 F1	Class-3 F1	Class-4 F1	macro-F1	Accuracy
BERT	65.74	69.63	33.87	76.06	61.33	69.36
Qwen3-0.6B	42.02	68.13	23.50	78.14	52.95	70.29
Qwen3-30B-A3B	65.09	68.80	32.47	81.68	62.01	74.42
LLM-base	65.19	68.86	32.91	81.90	62.22	75.04
TaoSR1(CoT)	43.30	67.54	19.68	75.62	51.54	68.22
TaoSR1(CoT) postCoT	57.63	72.64	27.91	81.88	60.01	75.12
TaoSR1(CoT&DPO) postCoT	65.74	71.95	39.43	83.00	65.03	76.49
TaoSR1(CoT&DPO&GRPO) postCoT	67.34	73.15	44.94	83.06	67.12	76.86

关键结论：

领域预训练重要：BERT（电商预训练）优于Qwen3-0.6B（通用预训练），LLM-base（Tbstar-42B，电商预训练）优于Qwen3-30B-A3B（通用预训练）——证明电商领域知识对相关性预测至关重要
Post-CoT有效：TaoSR1(CoT) postCoT的macro-F1比传统CoT高8.47个百分点，验证“先标签后推理”可缓解误差累积
三阶段优化递进：SFT→DPO→GRPO，macro-F1从60.01→65.03→67.12，每一步均有提升，证明各模块的必要性
复杂推理能力增强：Class-3（Related）F1从LLM-base的32.91提升至44.94（+12.03），说明模型更能理解“部分匹配”的复杂规则（如Mate50与Mate50 Pro）

5.3 消融实验：模块有效性验证

5.3.1 消融1：Post-CoT的必要性

模型	macro-F1	核心结论
TaoSR1(CoT)（think-then-respond）	51.54	传统CoT误差累积严重，效果差
TaoSR1(CoT) postCoT（respond-then-think）	60.01	Post-CoT有效缓解误差累积
TaoSR1(CoT&DPO) postCoT	65.03	DPO在Post-CoT基础上进一步提升

5.3.2 消融2：DPO先于GRPO的原因

模型	macro-F1	核心结论
TaoSR1(CoT) postCoT	60.01	无RL优化，基础能力
TaoSR1(CoT&GRPO) postCoT	66.84	直接GRPO，缺乏Oracle知识，效果略差
TaoSR1(CoT&DPO&GRPO) postCoT	67.12	DPO引入Oracle知识，GRPO效果更优

原因：DPO处理“pass@N=0”难样本时，用DeepSeek-R1（Oracle）提供正确输出，补充模型未掌握的知识——这是GRPO（仅自我采样）无法做到的，因此DPO是GRPO的必要前置步骤。

5.3.3 消融3：CumPT的优势

方法	超参数量	Online Macro F1（β=0.5）	性能波动（β=0.3→0.7）
传统方法	4+	64.83	41.42→56.83（-27.5%）
CumPT	1	67.14	67.05→67.17（+0.2%）

结论：CumPT不仅简化调参，还能大幅提升在线性能的稳定性，避免传统方法的“超参敏感”问题。

5.4 在线实验结果：业务价值验证

表8：在线侧评结果（2000个查询，对比LLM-base）

查询类型	案例	GSB（相对提升）	Query Goodrate（绝对提升）	Item Goodrate（绝对提升）
QA类	什么药能让头发变黑？	+16.62%	+6.53pt	+5.66pt
替代类	Miumiu 平替	+34.43%	+13.11pt	+10.69pt
否定类	短袖不粘毛	+10.92%	+3.80pt	+3.74pt
知识类	不怕车压的油漆	+18.45%	+6.85pt	+4.44pt

关键结论：

替代类查询提升最大：传统模型无法理解“平替”的语义（常检索原品牌），TaoSR1通过CoT推理“平替=非原品牌+相似风格”，因此GSB+34.43%——解决电商“平替搜索”的核心痛点
知识类/QA类提升显著：需外部知识的查询（如“不怕车压的油漆”需知道油漆硬度标准），TaoSR1通过LLM的通用知识+CoT推理，比仅依赖电商语料的LLM-base更优
否定类提升稳健：理解“不粘毛”等否定词，避免检索“粘毛短袖”，Query Goodrate+3.80pt——证明模型的语义理解能力增强

6. 结论与展望

6.1 核心贡献

技术框架创新：提出TaoSR1三阶段优化框架，首次实现LLM在电商相关性预测的直接在线部署，突破传统BERT和LLM的能力瓶颈
痛点解决方案：
- Post-CoT解决CoT的误差累积与延迟问题
- Pass@N-DPO+GRPO缓解判别式幻觉
- CumPT简化部署，提升稳定性
方法论价值：为LLM在“分类任务”中的应用提供范式，证明“推理链+强化学习”可平衡复杂任务能力与系统约束
业务价值验证：离线macro-F1提升4.9个点，在线难查询（替代/QA/知识）性能显著提升，可直接落地电商平台

6.2 未来方向

多模态扩展：当前仅处理文本（查询+商品标题），未来可加入图片（如“红色连衣裙”→商品图片颜色匹配）、视频等多模态信息
实时更新机制：电商业务规则（如新品类、新品牌）会动态变化，未来可设计“实时RAG知识库更新”，让模型无需重新训练即可适配新规则
模型压缩：Tbstar-42B参数量较大，未来可探索“MoE剪枝”“量化”等技术，进一步降低在线延迟
跨场景迁移：将TaoSR1框架迁移到其他分类任务（如广告相关性、内容推荐），验证其通用性

附录：关键术语对照表

术语缩写	英文全称	中文解释
CoT	Chain-of-Thought	思维链：让模型输出分步推理过程，提升复杂任务能力
SFT	Supervised Fine-Tuning	监督微调：用标注数据微调预训练LLM，适配特定任务
DPO	Direct Preference Optimization	直接偏好优化：通过“正确/错误”样本对优化模型，无需单独训练奖励模型
GRPO	Group Relative Policy Optimization	群体相对策略优化：在线多采样，构建群体内相对偏好，提升RL稳定性
RAG	Retrieval-Augmented Generation	检索增强生成：检索外部知识库信息辅助生成，避免模型记忆偏差
CumPT	Cumulative Probability Tiering	累积概率分层：基于标签优先级累积概率，用单超参实现多档分类，简化部署
GSB	Good/Same/Bad	在线侧评指标：测试组比基线组“更好/相同/更差”的比例，衡量相对优势
MoE	Mixture of Experts	混合专家模型：将模型分为多个“专家”子模型，仅激活部分专家，平衡参数量与速度