TaoSR1:面向电商搜索相关性的推理模型
1. 论文核心信息速览
1.1 基本信息
- 标题:TaoSR1: The Thinking Model for E-commerce Relevance Search(TaoSR1:面向电商搜索相关性的推理模型)
- 作者单位:核心研发团队来自阿里巴巴集团淘宝天猫事业群,合作单位包括清华大学、复旦大学
- 发表平台:arxiv.org/pdf/2508.12…
- 核心目标:解决电商搜索中“查询-商品相关性预测”的复杂推理问题,直接将大语言模型(LLM)部署到在线系统,替代传统BERT类模型
1.2 核心亮点/重要结论
-
框架创新:提出三阶段LLM优化框架(SFT+CoT→Pass@N-DPO→GRPO+难度采样),首次实现LLM在电商相关性预测的直接在线部署,避免传统LLM“蒸馏到BERT”的能力损耗
-
痛点解决:
- 用“Post-CoT”(先输出标签、再生成推理链)解决Chain-of-Thought(CoT)的误差累积和部署延迟问题
- 用“Pass@N-DPO+GRPO”缓解LLM的判别式幻觉(推理链正确但最终标签错误)
- 用“CumPT(累积概率分层)”将传统方法的4+超参简化为1个,降低部署复杂度并提升稳定性
-
性能突破:
- 离线实验:在7万条难查询标注数据上,macro-F1达67.12,比基线LLM-base(Tbstar-42B)提升4.9个百分点,Class-3(Related)F1从32.91提升至44.94(复杂推理能力显著增强)
- 在线实验:“替代类查询”(如“Miumiu平替”)的GSB(相对优势)+34.43%,Query Goodrate(页面级相关性)+13.11个百分点,Item Goodrate(商品级相关性)+10.69个百分点
-
方法论价值:为LLM在“分类任务”(非生成/数学/编程)中的应用提供范式,证明“推理链+强化学习”可平衡复杂任务能力与系统部署约束
2. 研究背景与问题提出
2.1 电商搜索相关性的核心价值
电商平台(如淘宝、亚马逊)每日需处理数亿用户查询,从千万级商品库中返回“查询-商品高度相关”的结果——这直接决定:
- 用户体验:避免无关商品浪费浏览时间,提升购物效率
- 商家价值:相关商品获得更多曝光,降低无效流量成本
- 平台生态:长期用户留存与商家信任的基石
相关性预测的本质是“多分类任务”:淘宝场景中定义4级标签(从高到低):
- L4(Excellent):商品与查询完全匹配(如“iPhone 15 256G”→“iPhone 15 256G 黑色”)
- L3(Related):商品与查询部分匹配(如“Mate50”→“Mate50 Pro”)
- L2(Mismatch):商品与查询部分不匹配(如“Mate50 Pro”→“Mate50”)
- L1(Irrelevant):商品与查询完全无关(如“口红”→“运动鞋”)
2.2 现有方法的演进与痛点
相关性预测技术经历了4代演进,但均存在明显局限:
| 技术阶段 | 代表方法 | 优势 | 核心痛点 |
|---|---|---|---|
| 1. 特征工程 | TF-IDF、BM25 | 简单易部署 | 依赖人工特征,无法理解语义(如“平替”≠“原品牌”) |
| 2. 深度学习表征 | CNN/RNN嵌入 | 可学习语义特征 | 缺乏领域知识,复杂规则无法建模 |
| 3. BERT类预训练 | BERT(24层)、ReprBERT | 双向注意力+电商预训练,文本匹配能力强 | 1. 参数量受限(低秩注意力问题),复杂推理弱;2. 仅处理80-90%简单查询,10%长尾难查询(否定/替代/QA)效果差 |
| 4. 早期LLM应用 | RankLLaMA、LREF | 理解与推理能力优于BERT | 1. 仍用“判别式范式”(输出标签概率),浪费LLM生成能力;2. 最终需蒸馏到BERT部署,推理能力损耗;3. 直接部署面临3大挑战(见2.3) |
2.3 核心挑战:LLM直接部署的三大障碍
论文指出,要将LLM直接用于在线相关性预测,必须解决以下3个关键问题:
挑战1:部署延迟(Deployment Latency)
- CoT是提升LLM推理能力的核心手段,但会增加输出token数量(推理链通常含50-100token)
- 在线场景中,1个查询需计算数百个候选商品的相关性,生成数百条CoT会导致延迟超1000ms(远超电商搜索200ms的 latency 要求)
挑战2:CoT误差累积(Error Accumulation in CoT)
- CoT通过“分步推理”提升能力,但中间步骤的微小误差(如误解“Mate50 Pro”的“Pro”含义)会不断累积,最终导致标签错误
- 例:查询“Mate50 Pro”→商品“Mate50”,CoT若误判“Pro是可选配置”,则会错误输出L3(Related),而非正确的L2(Mismatch)
挑战3:判别式幻觉(Discriminative Hallucination)
- 即使CoT推理链完全正确,LLM仍可能输出与推理矛盾的标签(如推理链明确“商品是Miumiu原品,非平替”,但标签仍标为L4)
- 原因:LLM在“分类任务”中易受训练数据分布偏差影响,忽略推理链逻辑,沦为“记忆式判别器”
3. 相关工作梳理
论文通过“相关性搜索”“推理LLM”“强化学习for分类”三个方向,明确自身创新定位:
3.1 相关性搜索(Relevance Search)
- 传统方法:TF-IDF/BM25(人工特征)→CNN/RNN(表征学习),均缺乏语义理解能力
- BERT时代:BERT通过双向注意力建模复杂语义,但参数量受限(通常≤1B),推理能力天花板低
- LLM时代:LREF、ProRBP等工作尝试用LLM做相关性预测,但均采用“判别式训练”或“蒸馏到BERT”,未解决复杂推理与在线部署的矛盾——本文首次实现LLM直接部署
3.2 推理LLM(Reasoning LLMs)
- 早期方法:Prompt Engineering(如“让模型分步思考”)、SFT(用推理链数据微调),但跨领域泛化差(数学推理好,电商推理差)
- RL驱动推理:o1(OpenAI)、DeepSeek-R1通过PPO/GRPO强化学习提升推理能力,但仅聚焦数学/编程领域——本文首次将RL推理引入电商垂直领域
3.3 强化学习for分类(RL for Classification)
- 现有研究(如GenCLS++)发现:LLM在分类任务中,“不输出推理链”或“推理链在标签后”的效果更好,但未深入优化
- Li et al. 尝试用RL优化多模态分类,但未解决“判别式幻觉”与“数据分布偏差”问题——本文通过“难度采样+数据平衡”提升RL在分类任务的有效性
4. 技术方案详解:TaoSR1框架
TaoSR1的核心是“三阶段优化+两大部署创新”,从“能力构建→误差修正→幻觉缓解→高效部署”全流程解决LLM应用痛点。框架整体:
4.1 问题定义
将电商相关性预测形式化为多分类任务:
- 输入:(查询文本+商品信息,如标题、属性)
- 输出:
(相关性标签)
- 在线目标:将输出映射为“Good(L4/L3)、Mid(L2)、Bad(L1)”三档,用于商品排序
4.2 第一阶段:SFT with CoT——构建基础推理能力
4.2.1 为什么需要SFT?
LLM预训练(如Tbstar-42B)仅具备通用语言能力,需通过监督微调(SFT) 适配电商相关性任务——但传统SFT存在致命问题:
| 传统SFT(判别式) | 本文SFT(生成式) |
|---|---|
| 目标:输出标签概率(如P(L4)=0.8) | 目标:直接生成标签文本(如“4-Excellent”) |
| 损失:MSE(回归)或CE(分类) | 损失:语言模型损失(LM Loss,式5) |
| 问题:LLM沦为“判别器”,浪费生成能力,无法引入推理链 | 优势:保留LLM生成能力,可后续加入CoT推理,且能提取连续分数(首token概率) |
4.2.2 生成式SFT的数学定义
- 模型输出:对于输入
,模型生成标签文本
(如“4-Excellent”),取第一个生成token(即“4”“3”“2”“1”)的概率作为相关性分数
- 损失函数(LM Loss) :
:模型条件概率分布(给定输入
和已生成token
,生成下一个token
的概率)
:训练数据集($$三元组)
:token位置,
:标签文本的token长度(如“4-Excellent”含2个token)
- 连续分数提取:将首token(“4”“3”“2”“1”)的概率作为后续分层依据:
:第一个生成token
:token“c”(c∈{1,2,3,4})在模型词表中的索引
:首token为“c”的概率(如
是生成“4”的概率)
4.2.3 加入CoT:让LLM理解电商业务规则
单纯生成标签无法让LLM掌握电商复杂的相关性规则(如“Mate50”与“Mate50 Pro”的差异、“平替”的语义),因此引入Chain-of-Thought(CoT,思维链) ——让模型输出“推理步骤+标签”,强制其学习业务逻辑。
4.2.3.1 CoT的核心设计:5步结构化推理
为避免CoT杂乱无章,论文定义统一的5步推理框架,覆盖电商相关性判断的全流程:
- Query Understanding(查询理解) :解析查询意图(如“Miumiu平替”→“寻找与Miumiu风格相似、价格更低的替代商品”)
- Product Comprehension(商品理解) :提取商品关键属性(如“Miumiu 2024新款钱包”→品牌=Miumiu,品类=钱包,年份=2024)
- Category Matching(品类匹配) :判断商品品类与查询是否一致(如“钱包”→“钱包”一致,“口红”→“钱包”不一致)
- Attribute Matching(属性匹配) :对比关键属性(如“平替”→商品品牌≠Miumiu,“Mate50 Pro”→商品型号含“Pro”)
- Relevance Class Determination(相关性判定) :结合前4步,引用业务规则输出标签(如“商品是Miumiu原品,不符合‘平替’查询→L2-Mismatch”)
4.2.3.2 RAG辅助CoT生成:引入业务规则
电商业务规则复杂(如不同品类、品牌的匹配逻辑不同),直接将所有规则写入Prompt会导致上下文过长(>4096token),因此用Retrieval-Augmented Generation(RAG,检索增强生成) 生成CoT:
-
步骤1:构建“原子规则知识库”
- 将完整业务规则拆解为“细粒度原子规则”(如“手机品类:查询含‘Pro’而商品不含→L2”“箱包品类:查询含‘平替’而商品是原品牌→L2”)
- 为每个原子规则标注元数据(品类、品牌、属性类型),便于检索
-
步骤2:标注“原子因素”
- 人工标注训练数据时,额外标注每个样本对应的“原子规则ID”(如“Mate50→Mate50 Pro”对应规则“手机品类:查询不含‘Pro’而商品含→L3”)
-
步骤3:动态检索+CoT合成
- 对每个训练样本$$,根据“原子因素”检索知识库中的对应规则
- 用强推理模型DeepSeek-R1,以“<prompt模板 + 检索到的规则 + x + y>”为输入,生成符合5步框架的CoT
- 最终训练数据格式:$$(如“Miumiu平替”→“XX品牌钱包”→“1. 查询理解:寻找Miumiu平替...5. 判定:商品是原品牌→L2”→“2-Mismatch”)
4.2.4 Post-CoT:解决CoT的误差与延迟问题
传统CoT采用“think-then-respond”范式(先输出推理链,再输出标签),但会导致:
- 误差累积:前4步推理的微小错误会影响标签
- 延迟高:推理链需先生成,再生成标签,增加token数量
论文提出Post-CoT范式(respond-then-think) :先输出标签,再输出推理链——核心逻辑是“标签由模型直接判断,推理链用于验证与修正(而非决定标签)”。
效果对比(离线数据) :
| 模型 | macro-F1 | Accuracy | 核心原因 |
|---|---|---|---|
| TaoSR1(CoT)(传统) | 51.54 | 68.22 | 误差累积,推理链错误导致标签错 |
| TaoSR1(CoT) postCoT | 60.01 | 75.12 | 先标签后推理,缓解误差累积 |
4.3 第二阶段:Pass@N-based DPO——修正CoT误差
SFT+CoT后,模型具备基础推理能力,但仍存在“部分样本多次采样才能正确”的问题——论文发现:模型的pass@N准确率(对一个样本采样N次,至少1次正确的概率)随N增加显著提升(表1),说明模型有“自我修正”的潜力。
表1:pass@N采样结果(TaoSR1(CoT))
| 模型/指标 | Accuracy(单采样) | Pass@1 | Pass@2 | Pass@3 | Pass@4 | Pass@5 |
|---|---|---|---|---|---|---|
| LLM-base | 75.01 | - | - | - | - | - |
| TaoSR1(CoT) | - | 67.38 | 74.26 | 77.68 | 80.18 | 81.73 |
基于此,论文提出Pass@N-based DPO(直接偏好优化) ——通过构建“正确/错误”的偏好样本对,让模型学习“选择正确推理路径”。
4.3.1 DPO的核心思想
DPO无需训练单独的“奖励模型”,直接通过“chosen(正确样本)”和“rejected(错误样本)”的对比,优化模型参数——目标是让模型对“chosen”的概率高于“rejected”。
4.3.2 偏好数据集构建:分两类样本处理
论文将训练集分为“可解决样本(pass@N>0)”和“难样本(pass@N=0)”,分别构建偏好对:
1. 可解决样本(pass@N>0):自我修正
- 对每个样本,用TaoSR1(CoT)采样N次(论文N=5)
- 从采样结果中选1个正确输出作为“chosen(y⁺)”,1个错误输出作为“rejected(y⁻)”
- 形成偏好对:
2. 难样本(pass@N=0):Oracle引导修正
- 这类样本是模型“持续犯错”的硬骨头,自我采样无法获得正确输出
- 用更强的推理模型DeepSeek-R1(Oracle)生成正确输出作为“chosen(y⁺)”,用TaoSR1(CoT)的错误输出作为“rejected(y⁻)”
- 形成偏好对:(覆盖约50%的pass@N=0样本)
4.3.3 DPO损失函数
模型在上最小化以下损失:
符号解释:
:当前待优化的模型(TaoSR1(CoT))
:参考模型(通常是SFT后的模型,固定参数)
:温度参数(论文取0.1,控制偏好的强度)
:sigmoid函数(将差值映射到[0,1],确保损失可优化)
:当前模型对“chosen”的概率比参考模型高多少(越大越好)
:当前模型对“rejected”的概率比参考模型高多少(越小越好)
核心逻辑:通过sigmoid函数,让“chosen相对于参考模型的优势”减去“rejected相对于参考模型的优势”的结果趋近于1(即,损失最小)。
4.3.4 DPO的效果
| 模型 | macro-F1 | Class-3 F1 | 核心提升 |
|---|---|---|---|
| TaoSR1(CoT) postCoT | 60.01 | 27.91 | 基础推理能力 |
| TaoSR1(CoT&DPO) postCoT | 65.03 | 39.43 | DPO修正CoT误差,复杂推理增强 |
4.4 第三阶段:GRPO with Difficulty-based Sampling——缓解判别式幻觉
DPO解决了“CoT误差”,但仍存在“判别式幻觉”(推理链正确但标签错误)——原因是DPO的“离线采样”无法覆盖在线场景的所有复杂情况,且数据分布不均衡(如L4样本占50%,L3仅占5%)。
论文提出GRPO(Group Relative Policy Optimization,群体相对策略优化)+ 难度动态采样,通过“在线多采样+聚焦难样本+数据平衡”进一步提升模型稳定性,缓解幻觉。
4.4.1 GRPO与DPO的核心差异
GRPO是在PPO(近端策略优化)基础上改进的RL算法,比DPO更适合“在线多采样”场景:
- DPO:离线构建偏好对,优化“静态样本”
- GRPO:在线对每个样本采样多个输出(论文采样16次),构建“群体内相对偏好”,优化“动态样本”
4.4.2 难度动态采样:聚焦有价值样本
传统RL采样会包含“全对”或“全错”的批次,这些样本对训练无价值:
- 全对批次:样本太简单,模型已掌握,梯度趋近于0
- 全错批次:样本太难,模型缺乏必要知识,采样再多也无法正确
论文提出难度动态采样策略:
- 对每个样本
,在线采样G个输出(论文G=16)
- 计算该批次的“ empirical accuracy”(正确输出占比)
- 仅保留“empirical accuracy ∈ (0, γ)”的批次(论文γ=0.99),丢弃全对(=1)或全错(=0)的批次
- 对保留的批次,计算“群体内相对优势”,用于梯度更新
4.4.3 数据平衡:降低标签分布偏差
论文发现:GRPO训练数据的标签分布变异系数(CV) 与模型性能呈强负相关(CV越小,分布越平衡,性能越好)。因此:
- 对训练集进行“下采样”:将L4(50%)、L2(36%)、L1(9%)的样本数量下采样到与最小类L3(5%)一致
- 最终训练集标签分布:L1:L2:L3:L4=25%:25%:25%:25%(CV=0)
4.4.4 GRPO损失函数
 \sim \mathcal{D},\left{\sigma{i}\right}{i=1}^{G} \sim \mathcal{D}} \ & {\left[\frac{1}{G} \sum{i=1}^{G} \frac{1}{\left|o_{i}\right|} \sum_{t=1}^{o_{i}} min \left(r_{i, t}(\theta) \cdot \hat{A}{t}, clip\left(r{i, t}(\theta), 1-\epsilon, 1+\epsilon\right) \cdot \hat{A}{t}\right)\right.} \ & \left.-\beta \cdot D{KL}\left(\pi_{\theta} | \pi_{r e f}\right)\right] \ s.t. & 0<|\left{o_{i} | o_{i} \text{ 与 } y \text{ 一致}\right} |<\gamma \end{align} \tag{9} >)
符号解释:
:每个样本的采样次数(论文G=16)
:第i个采样输出
:第i个采样输出的token序列
:重要性采样比(当前模型与旧模型在第t个token的概率比,避免更新幅度过大)
:标准化优势(当前采样输出的奖励与群体平均奖励的差值,标准化后更稳定)
:PPO裁剪参数(论文取0.2,限制
在[0.8,1.2],避免梯度爆炸)
:KL散度正则化(确保当前模型与参考模型差异不大,避免灾难性遗忘)
- 约束条件:仅保留“正确输出数量在(0,γ)”的批次
4.4.5 GRPO的效果
| 模型 | macro-F1 | 判别式幻觉率(失败案例中) | 核心提升 |
|---|---|---|---|
| TaoSR1(CoT&DPO) postCoT | 65.03 | 25% | 修正CoT误差 |
| TaoSR1(CoT&DPO&GRPO) postCoT | 67.12 | 17.5%(降低30%) | 缓解判别式幻觉,数据平衡生效 |
4.5 部署创新:CumPT——简化分层与提升稳定性
在线部署时,需将模型输出的“4级标签概率”映射为“Good/Mid/Bad”三档,用于商品排序。传统方法存在“超参多、调参难、性能不稳定”的问题,论文提出CumPT(Cumulative Probability Tiering,累积概率分层) 解决。
4.5.1 传统分层方法的痛点
传统方法需手动调整多个超参,且性能对超参敏感:
- MSE训练模型:需设置2个“分数锚点”(如L1=0,L4=1,L2=α₁,L3=α₂)+2个“阈值”(β₁,β₂),共4个超参
- CE训练模型:需设置4个“概率权重”+2个阈值,共6个超参
- 例:当β₂从0.3调整到0.7时,传统方法的Online Macro F1从41.42波动到65.26(表7),稳定性极差
4.5.2 CumPT的核心思想
基于“标签优先级”(L4>L3>L2>L1),累积概率并与“单超参β_cum”比较——无需手动设置锚点或权重,仅需调整β_cum即可控制“Good/Mid/Bad”的比例。
4.5.3 CumPT算法步骤(Algorithm 1)
示例:
- 样本A:(p1)id(4)=0.6,(p1)id(3)=0.2,β_cum=0.5→步骤1:0.6≥0.5→Good
- 样本B:(p1)id(4)=0.4,(p1)id(3)=0.2,β_cum=0.5→步骤2:0.4+0.2=0.6≥0.5→Good
- 样本C:(p1)id(4)=0.3,(p1)id(3)=0.1,(p1)id(2)=0.4,β_cum=0.5→步骤3:0.3+0.1+0.4=0.8≥0.5→Mid
- 样本D:(p1)id(4)=0.2,(p1)id(3)=0.1,(p1)id(2)=0.1,β_cum=0.5→步骤4:0.4<0.5→Bad
4.5.4 CumPT的优势(实验对比)
表7:传统方法与CumPT的性能对比(β_cum=β₂)
| 方法 | 阈值 | macro-F1(离线) | Online Macro F1 | Good F1 | 超参数量 |
|---|---|---|---|---|---|
| 传统方法 | β₂=0.3 | 67.12 | 41.42 | 73.66 | 4+ |
| 传统方法 | β₂=0.5 | 67.12 | 64.83 | 80.43 | 4+ |
| 传统方法 | β₂=0.7 | 67.12 | 56.83 | 81.05 | 4+ |
| CumPT | β_cum=0.3 | 67.12 | 67.05 | 85.37 | 1 |
| CumPT | β_cum=0.5 | 67.12 | 67.14 | 81.04 | 1 |
| CumPT | β_cum=0.7 | 67.12 | 67.17 | 81.51 | 1 |
核心结论:
- 稳定性:CumPT的Online Macro F1始终稳定在67左右,传统方法波动达23个百分点
- 简便性:仅需调整1个超参,避免传统方法的“网格搜索调参”(需数天时间)
- 性能:CumPT的Good F1普遍高于传统方法,说明分层更精准
5. 实验设计与结果分析
5.1 实验 setup
5.1.1 数据集
-
来源:淘宝在线搜索日志,手动标注的query-item对(7万条)
-
查询类型:聚焦4类难查询(覆盖电商场景的核心复杂需求):
- 否定类(如“短袖 不粘毛”)
- 替代类(如“Miumiu 平替”)
- QA类(如“什么药能让头发变黑”)
- 知识类(如“不怕车压的油漆”)
-
标签分布(表3):L4(50%)、L3(5%)、L2(36%)、L1(9%)——相关样本(L4+L3)与非相关样本(L2+L1)比例约1:1,避免类别不平衡影响评估
5.1.2 基线模型
| 基线模型 | 模型配置 | 训练方式 |
|---|---|---|
| BERT | 24层,电商语料预训练(淘宝内部数据) | 判别式SFT(CE损失) |
| Qwen3-0.6B | 0.6B参数量,稠密模型(开源) | 生成式SFT(LM损失) |
| Qwen3-30B-A3B | 30B总参数量,MoE架构(3B激活参数量,开源) | 生成式SFT(LM损失) |
| LLM-base | Tbstar-42B(淘宝自研LLM),MoE架构(42B总参,3.5B激活参),电商语料预训练 | 生成式SFT(LM损失) |
5.1.3 评估指标
-
离线指标:macro-F1(平衡各类别权重,避免受样本量影响)、各类别F1、Accuracy
-
在线指标(人工侧评,2000个查询,对比top10结果):
- GSB(Good/Same/Bad):测试组比基线组“更好”的比例(如GSB+16.62%=16.62%的结果测试组更优)
- Query Goodrate:页面级相关性(查询结果页被评为“Good/Mid”的比例),绝对提升
- Item Goodrate:商品级相关性(高度相关商品L4/L3的比例),绝对提升
5.2 离线实验结果:能力验证
表2:离线评估结果(核心模型对比)
| 模型 | Class-1 F1 | Class-2 F1 | Class-3 F1 | Class-4 F1 | macro-F1 | Accuracy |
|---|---|---|---|---|---|---|
| BERT | 65.74 | 69.63 | 33.87 | 76.06 | 61.33 | 69.36 |
| Qwen3-0.6B | 42.02 | 68.13 | 23.50 | 78.14 | 52.95 | 70.29 |
| Qwen3-30B-A3B | 65.09 | 68.80 | 32.47 | 81.68 | 62.01 | 74.42 |
| LLM-base | 65.19 | 68.86 | 32.91 | 81.90 | 62.22 | 75.04 |
| TaoSR1(CoT) | 43.30 | 67.54 | 19.68 | 75.62 | 51.54 | 68.22 |
| TaoSR1(CoT) postCoT | 57.63 | 72.64 | 27.91 | 81.88 | 60.01 | 75.12 |
| TaoSR1(CoT&DPO) postCoT | 65.74 | 71.95 | 39.43 | 83.00 | 65.03 | 76.49 |
| TaoSR1(CoT&DPO&GRPO) postCoT | 67.34 | 73.15 | 44.94 | 83.06 | 67.12 | 76.86 |
关键结论:
- 领域预训练重要:BERT(电商预训练)优于Qwen3-0.6B(通用预训练),LLM-base(Tbstar-42B,电商预训练)优于Qwen3-30B-A3B(通用预训练)——证明电商领域知识对相关性预测至关重要
- Post-CoT有效:TaoSR1(CoT) postCoT的macro-F1比传统CoT高8.47个百分点,验证“先标签后推理”可缓解误差累积
- 三阶段优化递进:SFT→DPO→GRPO,macro-F1从60.01→65.03→67.12,每一步均有提升,证明各模块的必要性
- 复杂推理能力增强:Class-3(Related)F1从LLM-base的32.91提升至44.94(+12.03),说明模型更能理解“部分匹配”的复杂规则(如Mate50与Mate50 Pro)
5.3 消融实验:模块有效性验证
5.3.1 消融1:Post-CoT的必要性
| 模型 | macro-F1 | 核心结论 |
|---|---|---|
| TaoSR1(CoT)(think-then-respond) | 51.54 | 传统CoT误差累积严重,效果差 |
| TaoSR1(CoT) postCoT(respond-then-think) | 60.01 | Post-CoT有效缓解误差累积 |
| TaoSR1(CoT&DPO) postCoT | 65.03 | DPO在Post-CoT基础上进一步提升 |
5.3.2 消融2:DPO先于GRPO的原因
| 模型 | macro-F1 | 核心结论 |
|---|---|---|
| TaoSR1(CoT) postCoT | 60.01 | 无RL优化,基础能力 |
| TaoSR1(CoT&GRPO) postCoT | 66.84 | 直接GRPO,缺乏Oracle知识,效果略差 |
| TaoSR1(CoT&DPO&GRPO) postCoT | 67.12 | DPO引入Oracle知识,GRPO效果更优 |
原因:DPO处理“pass@N=0”难样本时,用DeepSeek-R1(Oracle)提供正确输出,补充模型未掌握的知识——这是GRPO(仅自我采样)无法做到的,因此DPO是GRPO的必要前置步骤。
5.3.3 消融3:CumPT的优势
| 方法 | 超参数量 | Online Macro F1(β=0.5) | 性能波动(β=0.3→0.7) |
|---|---|---|---|
| 传统方法 | 4+ | 64.83 | 41.42→56.83(-27.5%) |
| CumPT | 1 | 67.14 | 67.05→67.17(+0.2%) |
结论:CumPT不仅简化调参,还能大幅提升在线性能的稳定性,避免传统方法的“超参敏感”问题。
5.4 在线实验结果:业务价值验证
表8:在线侧评结果(2000个查询,对比LLM-base)
| 查询类型 | 案例 | GSB(相对提升) | Query Goodrate(绝对提升) | Item Goodrate(绝对提升) |
|---|---|---|---|---|
| QA类 | 什么药能让头发变黑? | +16.62% | +6.53pt | +5.66pt |
| 替代类 | Miumiu 平替 | +34.43% | +13.11pt | +10.69pt |
| 否定类 | 短袖 不粘毛 | +10.92% | +3.80pt | +3.74pt |
| 知识类 | 不怕车压的油漆 | +18.45% | +6.85pt | +4.44pt |
关键结论:
- 替代类查询提升最大:传统模型无法理解“平替”的语义(常检索原品牌),TaoSR1通过CoT推理“平替=非原品牌+相似风格”,因此GSB+34.43%——解决电商“平替搜索”的核心痛点
- 知识类/QA类提升显著:需外部知识的查询(如“不怕车压的油漆”需知道油漆硬度标准),TaoSR1通过LLM的通用知识+CoT推理,比仅依赖电商语料的LLM-base更优
- 否定类提升稳健:理解“不粘毛”等否定词,避免检索“粘毛短袖”,Query Goodrate+3.80pt——证明模型的语义理解能力增强
6. 结论与展望
6.1 核心贡献
-
技术框架创新:提出TaoSR1三阶段优化框架,首次实现LLM在电商相关性预测的直接在线部署,突破传统BERT和LLM的能力瓶颈
-
痛点解决方案:
- Post-CoT解决CoT的误差累积与延迟问题
- Pass@N-DPO+GRPO缓解判别式幻觉
- CumPT简化部署,提升稳定性
-
方法论价值:为LLM在“分类任务”中的应用提供范式,证明“推理链+强化学习”可平衡复杂任务能力与系统约束
-
业务价值验证:离线macro-F1提升4.9个点,在线难查询(替代/QA/知识)性能显著提升,可直接落地电商平台
6.2 未来方向
- 多模态扩展:当前仅处理文本(查询+商品标题),未来可加入图片(如“红色连衣裙”→商品图片颜色匹配)、视频等多模态信息
- 实时更新机制:电商业务规则(如新品类、新品牌)会动态变化,未来可设计“实时RAG知识库更新”,让模型无需重新训练即可适配新规则
- 模型压缩:Tbstar-42B参数量较大,未来可探索“MoE剪枝”“量化”等技术,进一步降低在线延迟
- 跨场景迁移:将TaoSR1框架迁移到其他分类任务(如广告相关性、内容推荐),验证其通用性
附录:关键术语对照表
| 术语缩写 | 英文全称 | 中文解释 |
|---|---|---|
| CoT | Chain-of-Thought | 思维链:让模型输出分步推理过程,提升复杂任务能力 |
| SFT | Supervised Fine-Tuning | 监督微调:用标注数据微调预训练LLM,适配特定任务 |
| DPO | Direct Preference Optimization | 直接偏好优化:通过“正确/错误”样本对优化模型,无需单独训练奖励模型 |
| GRPO | Group Relative Policy Optimization | 群体相对策略优化:在线多采样,构建群体内相对偏好,提升RL稳定性 |
| RAG | Retrieval-Augmented Generation | 检索增强生成:检索外部知识库信息辅助生成,避免模型记忆偏差 |
| CumPT | Cumulative Probability Tiering | 累积概率分层:基于标签优先级累积概率,用单超参实现多档分类,简化部署 |
| GSB | Good/Same/Bad | 在线侧评指标:测试组比基线组“更好/相同/更差”的比例,衡量相对优势 |
| MoE | Mixture of Experts | 混合专家模型:将模型分为多个“专家”子模型,仅激活部分专家,平衡参数量与速度 |