TaoSR1:面向电商搜索相关性的推理模型

530 阅读21分钟

TaoSR1:面向电商搜索相关性的推理模型

1. 论文核心信息速览

1.1 基本信息

  • 标题:TaoSR1: The Thinking Model for E-commerce Relevance Search(TaoSR1:面向电商搜索相关性的推理模型)
  • 作者单位:核心研发团队来自阿里巴巴集团淘宝天猫事业群,合作单位包括清华大学、复旦大学
  • 发表平台arxiv.org/pdf/2508.12…
  • 核心目标:解决电商搜索中“查询-商品相关性预测”的复杂推理问题,直接将大语言模型(LLM)部署到在线系统,替代传统BERT类模型

1.2 核心亮点/重要结论

  1. 框架创新:提出三阶段LLM优化框架(SFT+CoT→Pass@N-DPO→GRPO+难度采样),首次实现LLM在电商相关性预测的直接在线部署,避免传统LLM“蒸馏到BERT”的能力损耗

  2. 痛点解决

    • 用“Post-CoT”(先输出标签、再生成推理链)解决Chain-of-Thought(CoT)的误差累积部署延迟问题
    • 用“Pass@N-DPO+GRPO”缓解LLM的判别式幻觉(推理链正确但最终标签错误)
    • 用“CumPT(累积概率分层)”将传统方法的4+超参简化为1个,降低部署复杂度并提升稳定性
  3. 性能突破

    • 离线实验:在7万条难查询标注数据上,macro-F1达67.12,比基线LLM-base(Tbstar-42B)提升4.9个百分点,Class-3(Related)F1从32.91提升至44.94(复杂推理能力显著增强)
    • 在线实验:“替代类查询”(如“Miumiu平替”)的GSB(相对优势)+34.43%,Query Goodrate(页面级相关性)+13.11个百分点,Item Goodrate(商品级相关性)+10.69个百分点
  4. 方法论价值:为LLM在“分类任务”(非生成/数学/编程)中的应用提供范式,证明“推理链+强化学习”可平衡复杂任务能力与系统部署约束

2. 研究背景与问题提出

2.1 电商搜索相关性的核心价值

电商平台(如淘宝、亚马逊)每日需处理数亿用户查询,从千万级商品库中返回“查询-商品高度相关”的结果——这直接决定:

  • 用户体验:避免无关商品浪费浏览时间,提升购物效率
  • 商家价值:相关商品获得更多曝光,降低无效流量成本
  • 平台生态:长期用户留存与商家信任的基石

相关性预测的本质是“多分类任务”:淘宝场景中定义4级标签(从高到低):

  • L4(Excellent):商品与查询完全匹配(如“iPhone 15 256G”→“iPhone 15 256G 黑色”)
  • L3(Related):商品与查询部分匹配(如“Mate50”→“Mate50 Pro”)
  • L2(Mismatch):商品与查询部分不匹配(如“Mate50 Pro”→“Mate50”)
  • L1(Irrelevant):商品与查询完全无关(如“口红”→“运动鞋”)

2.2 现有方法的演进与痛点

相关性预测技术经历了4代演进,但均存在明显局限:

技术阶段代表方法优势核心痛点
1. 特征工程TF-IDF、BM25简单易部署依赖人工特征,无法理解语义(如“平替”≠“原品牌”)
2. 深度学习表征CNN/RNN嵌入可学习语义特征缺乏领域知识,复杂规则无法建模
3. BERT类预训练BERT(24层)、ReprBERT双向注意力+电商预训练,文本匹配能力强1. 参数量受限(低秩注意力问题),复杂推理弱;2. 仅处理80-90%简单查询,10%长尾难查询(否定/替代/QA)效果差
4. 早期LLM应用RankLLaMA、LREF理解与推理能力优于BERT1. 仍用“判别式范式”(输出标签概率),浪费LLM生成能力;2. 最终需蒸馏到BERT部署,推理能力损耗;3. 直接部署面临3大挑战(见2.3)

2.3 核心挑战:LLM直接部署的三大障碍

论文指出,要将LLM直接用于在线相关性预测,必须解决以下3个关键问题:

挑战1:部署延迟(Deployment Latency)
  • CoT是提升LLM推理能力的核心手段,但会增加输出token数量(推理链通常含50-100token)
  • 在线场景中,1个查询需计算数百个候选商品的相关性,生成数百条CoT会导致延迟超1000ms(远超电商搜索200ms的 latency 要求)
挑战2:CoT误差累积(Error Accumulation in CoT)
  • CoT通过“分步推理”提升能力,但中间步骤的微小误差(如误解“Mate50 Pro”的“Pro”含义)会不断累积,最终导致标签错误
  • 例:查询“Mate50 Pro”→商品“Mate50”,CoT若误判“Pro是可选配置”,则会错误输出L3(Related),而非正确的L2(Mismatch)
挑战3:判别式幻觉(Discriminative Hallucination)
  • 即使CoT推理链完全正确,LLM仍可能输出与推理矛盾的标签(如推理链明确“商品是Miumiu原品,非平替”,但标签仍标为L4)
  • 原因:LLM在“分类任务”中易受训练数据分布偏差影响,忽略推理链逻辑,沦为“记忆式判别器”

3. 相关工作梳理

论文通过“相关性搜索”“推理LLM”“强化学习for分类”三个方向,明确自身创新定位:

3.1 相关性搜索(Relevance Search)

  • 传统方法:TF-IDF/BM25(人工特征)→CNN/RNN(表征学习),均缺乏语义理解能力
  • BERT时代:BERT通过双向注意力建模复杂语义,但参数量受限(通常≤1B),推理能力天花板低
  • LLM时代:LREF、ProRBP等工作尝试用LLM做相关性预测,但均采用“判别式训练”或“蒸馏到BERT”,未解决复杂推理与在线部署的矛盾——本文首次实现LLM直接部署

3.2 推理LLM(Reasoning LLMs)

  • 早期方法:Prompt Engineering(如“让模型分步思考”)、SFT(用推理链数据微调),但跨领域泛化差(数学推理好,电商推理差)
  • RL驱动推理:o1(OpenAI)、DeepSeek-R1通过PPO/GRPO强化学习提升推理能力,但仅聚焦数学/编程领域——本文首次将RL推理引入电商垂直领域

3.3 强化学习for分类(RL for Classification)

  • 现有研究(如GenCLS++)发现:LLM在分类任务中,“不输出推理链”或“推理链在标签后”的效果更好,但未深入优化
  • Li et al. 尝试用RL优化多模态分类,但未解决“判别式幻觉”与“数据分布偏差”问题——本文通过“难度采样+数据平衡”提升RL在分类任务的有效性

4. 技术方案详解:TaoSR1框架

TaoSR1的核心是“三阶段优化+两大部署创新”,从“能力构建→误差修正→幻觉缓解→高效部署”全流程解决LLM应用痛点。框架整体:

image.png

4.1 问题定义

将电商相关性预测形式化为多分类任务

  • 输入:x=x = (查询文本+商品信息,如标题、属性)
  • 输出:(相关性标签)
  • 在线目标:将输出映射为“Good(L4/L3)、Mid(L2)、Bad(L1)”三档,用于商品排序

4.2 第一阶段:SFT with CoT——构建基础推理能力

4.2.1 为什么需要SFT?

LLM预训练(如Tbstar-42B)仅具备通用语言能力,需通过监督微调(SFT) 适配电商相关性任务——但传统SFT存在致命问题:

传统SFT(判别式)本文SFT(生成式)
目标:输出标签概率(如P(L4)=0.8)目标:直接生成标签文本(如“4-Excellent”)
损失:MSE(回归)或CE(分类)损失:语言模型损失(LM Loss,式5)
问题:LLM沦为“判别器”,浪费生成能力,无法引入推理链优势:保留LLM生成能力,可后续加入CoT推理,且能提取连续分数(首token概率)
4.2.2 生成式SFT的数学定义
  1. 模型输出:对于输入,模型生成标签文本(如“4-Excellent”),取第一个生成token(即“4”“3”“2”“1”)的概率作为相关性分数
  2. 损失函数(LM Loss)

  • :模型条件概率分布(给定输入和已生成token,生成下一个token的概率)
  • :训练数据集($$三元组)
  • :token位置,:标签文本的token长度(如“4-Excellent”含2个token)
  1. 连续分数提取:将首token(“4”“3”“2”“1”)的概率作为后续分层依据:

  • :第一个生成token
  • :token“c”(c∈{1,2,3,4})在模型词表中的索引
  • :首token为“c”的概率(如是生成“4”的概率)
4.2.3 加入CoT:让LLM理解电商业务规则

单纯生成标签无法让LLM掌握电商复杂的相关性规则(如“Mate50”与“Mate50 Pro”的差异、“平替”的语义),因此引入Chain-of-Thought(CoT,思维链) ——让模型输出“推理步骤+标签”,强制其学习业务逻辑。

4.2.3.1 CoT的核心设计:5步结构化推理

为避免CoT杂乱无章,论文定义统一的5步推理框架,覆盖电商相关性判断的全流程:

  1. Query Understanding(查询理解) :解析查询意图(如“Miumiu平替”→“寻找与Miumiu风格相似、价格更低的替代商品”)
  2. Product Comprehension(商品理解) :提取商品关键属性(如“Miumiu 2024新款钱包”→品牌=Miumiu,品类=钱包,年份=2024)
  3. Category Matching(品类匹配) :判断商品品类与查询是否一致(如“钱包”→“钱包”一致,“口红”→“钱包”不一致)
  4. Attribute Matching(属性匹配) :对比关键属性(如“平替”→商品品牌≠Miumiu,“Mate50 Pro”→商品型号含“Pro”)
  5. Relevance Class Determination(相关性判定) :结合前4步,引用业务规则输出标签(如“商品是Miumiu原品,不符合‘平替’查询→L2-Mismatch”)
4.2.3.2 RAG辅助CoT生成:引入业务规则

电商业务规则复杂(如不同品类、品牌的匹配逻辑不同),直接将所有规则写入Prompt会导致上下文过长(>4096token),因此用Retrieval-Augmented Generation(RAG,检索增强生成) 生成CoT:

  1. 步骤1:构建“原子规则知识库”

    • 将完整业务规则拆解为“细粒度原子规则”(如“手机品类:查询含‘Pro’而商品不含→L2”“箱包品类:查询含‘平替’而商品是原品牌→L2”)
    • 为每个原子规则标注元数据(品类、品牌、属性类型),便于检索
  2. 步骤2:标注“原子因素”

    • 人工标注训练数据时,额外标注每个样本对应的“原子规则ID”(如“Mate50→Mate50 Pro”对应规则“手机品类:查询不含‘Pro’而商品含→L3”)
  3. 步骤3:动态检索+CoT合成

    • 对每个训练样本$$,根据“原子因素”检索知识库中的对应规则
    • 用强推理模型DeepSeek-R1,以“<prompt模板 + 检索到的规则 + x + y>”为输入,生成符合5步框架的CoT
    • 最终训练数据格式:$$(如“Miumiu平替”→“XX品牌钱包”→“1. 查询理解:寻找Miumiu平替...5. 判定:商品是原品牌→L2”→“2-Mismatch”)
4.2.4 Post-CoT:解决CoT的误差与延迟问题

传统CoT采用“think-then-respond”范式(先输出推理链,再输出标签),但会导致:

  • 误差累积:前4步推理的微小错误会影响标签
  • 延迟高:推理链需先生成,再生成标签,增加token数量

论文提出Post-CoT范式(respond-then-think) :先输出标签,再输出推理链——核心逻辑是“标签由模型直接判断,推理链用于验证与修正(而非决定标签)”。

效果对比(离线数据)

模型macro-F1Accuracy核心原因
TaoSR1(CoT)(传统)51.5468.22误差累积,推理链错误导致标签错
TaoSR1(CoT) postCoT60.0175.12先标签后推理,缓解误差累积

4.3 第二阶段:Pass@N-based DPO——修正CoT误差

SFT+CoT后,模型具备基础推理能力,但仍存在“部分样本多次采样才能正确”的问题——论文发现:模型的pass@N准确率(对一个样本采样N次,至少1次正确的概率)随N增加显著提升(表1),说明模型有“自我修正”的潜力。

表1:pass@N采样结果(TaoSR1(CoT))
模型/指标Accuracy(单采样)Pass@1Pass@2Pass@3Pass@4Pass@5
LLM-base75.01-----
TaoSR1(CoT)-67.3874.2677.6880.1881.73

基于此,论文提出Pass@N-based DPO(直接偏好优化) ——通过构建“正确/错误”的偏好样本对,让模型学习“选择正确推理路径”。

4.3.1 DPO的核心思想

DPO无需训练单独的“奖励模型”,直接通过“chosen(正确样本)”和“rejected(错误样本)”的对比,优化模型参数——目标是让模型对“chosen”的概率高于“rejected”。

4.3.2 偏好数据集构建:分两类样本处理

论文将训练集分为“可解决样本(pass@N>0)”和“难样本(pass@N=0)”,分别构建偏好对:

1. 可解决样本(pass@N>0):自我修正
  • 对每个样本,用TaoSR1(CoT)采样N次(论文N=5)
  • 从采样结果中选1个正确输出作为“chosen(y⁺)”,1个错误输出作为“rejected(y⁻)”
  • 形成偏好对:![]()Dpass![]()D_{pass}
2. 难样本(pass@N=0):Oracle引导修正
  • 这类样本是模型“持续犯错”的硬骨头,自我采样无法获得正确输出
  • 用更强的推理模型DeepSeek-R1(Oracle)生成正确输出作为“chosen(y⁺)”,用TaoSR1(CoT)的错误输出作为“rejected(y⁻)”
  • 形成偏好对:![]()Dpass![]()D_{pass}'(覆盖约50%的pass@N=0样本)
4.3.3 DPO损失函数

模型在上最小化以下损失:

符号解释

  • :当前待优化的模型(TaoSR1(CoT))
  • :参考模型(通常是SFT后的模型,固定参数)
  • :温度参数(论文取0.1,控制偏好的强度)
  • :sigmoid函数(将差值映射到[0,1],确保损失可优化)
  • :当前模型对“chosen”的概率比参考模型高多少(越大越好)
  • :当前模型对“rejected”的概率比参考模型高多少(越小越好)

核心逻辑:通过sigmoid函数,让“chosen相对于参考模型的优势”减去“rejected相对于参考模型的优势”的结果趋近于1(即,损失最小)。

4.3.4 DPO的效果
模型macro-F1Class-3 F1核心提升
TaoSR1(CoT) postCoT60.0127.91基础推理能力
TaoSR1(CoT&DPO) postCoT65.0339.43DPO修正CoT误差,复杂推理增强

4.4 第三阶段:GRPO with Difficulty-based Sampling——缓解判别式幻觉

DPO解决了“CoT误差”,但仍存在“判别式幻觉”(推理链正确但标签错误)——原因是DPO的“离线采样”无法覆盖在线场景的所有复杂情况,且数据分布不均衡(如L4样本占50%,L3仅占5%)。

论文提出GRPO(Group Relative Policy Optimization,群体相对策略优化)+ 难度动态采样,通过“在线多采样+聚焦难样本+数据平衡”进一步提升模型稳定性,缓解幻觉。

4.4.1 GRPO与DPO的核心差异

GRPO是在PPO(近端策略优化)基础上改进的RL算法,比DPO更适合“在线多采样”场景:

  • DPO:离线构建偏好对,优化“静态样本”
  • GRPO:在线对每个样本采样多个输出(论文采样16次),构建“群体内相对偏好”,优化“动态样本”
4.4.2 难度动态采样:聚焦有价值样本

传统RL采样会包含“全对”或“全错”的批次,这些样本对训练无价值:

  • 全对批次:样本太简单,模型已掌握,梯度趋近于0
  • 全错批次:样本太难,模型缺乏必要知识,采样再多也无法正确

论文提出难度动态采样策略

  1. 对每个样本,在线采样G个输出(论文G=16)
  2. 计算该批次的“ empirical accuracy”(正确输出占比)
  3. 仅保留“empirical accuracy ∈ (0, γ)”的批次(论文γ=0.99),丢弃全对(=1)或全错(=0)的批次
  4. 对保留的批次,计算“群体内相对优势”,用于梯度更新
4.4.3 数据平衡:降低标签分布偏差

论文发现:GRPO训练数据的标签分布变异系数(CV) 与模型性能呈强负相关(CV越小,分布越平衡,性能越好)。因此:

  • 对训练集进行“下采样”:将L4(50%)、L2(36%)、L1(9%)的样本数量下采样到与最小类L3(5%)一致
  • 最终训练集标签分布:L1:L2:L3:L4=25%:25%:25%:25%(CV=0)
4.4.4 GRPO损失函数

![](<juejin.im/equation?te… & \mathbb{E}{(x, y) \sim \mathcal{D},\left{\sigma{i}\right}{i=1}^{G} \sim \mathcal{D}} \ & {\left[\frac{1}{G} \sum{i=1}^{G} \frac{1}{\left|o_{i}\right|} \sum_{t=1}^{o_{i}} min \left(r_{i, t}(\theta) \cdot \hat{A}{t}, clip\left(r{i, t}(\theta), 1-\epsilon, 1+\epsilon\right) \cdot \hat{A}{t}\right)\right.} \ & \left.-\beta \cdot D{KL}\left(\pi_{\theta} | \pi_{r e f}\right)\right] \ s.t. & 0<|\left{o_{i} | o_{i} \text{ 与 } y \text{ 一致}\right} |<\gamma \end{align} \tag{9} >)

符号解释

  • :每个样本的采样次数(论文G=16)
  • :第i个采样输出
  • :第i个采样输出的token序列
  • :重要性采样比(当前模型与旧模型在第t个token的概率比,避免更新幅度过大)
  • :标准化优势(当前采样输出的奖励与群体平均奖励的差值,标准化后更稳定)
  • :PPO裁剪参数(论文取0.2,限制在[0.8,1.2],避免梯度爆炸)
  • :KL散度正则化(确保当前模型与参考模型差异不大,避免灾难性遗忘)
  • 约束条件:仅保留“正确输出数量在(0,γ)”的批次
4.4.5 GRPO的效果
模型macro-F1判别式幻觉率(失败案例中)核心提升
TaoSR1(CoT&DPO) postCoT65.0325%修正CoT误差
TaoSR1(CoT&DPO&GRPO) postCoT67.1217.5%(降低30%)缓解判别式幻觉,数据平衡生效

4.5 部署创新:CumPT——简化分层与提升稳定性

在线部署时,需将模型输出的“4级标签概率”映射为“Good/Mid/Bad”三档,用于商品排序。传统方法存在“超参多、调参难、性能不稳定”的问题,论文提出CumPT(Cumulative Probability Tiering,累积概率分层) 解决。

4.5.1 传统分层方法的痛点

传统方法需手动调整多个超参,且性能对超参敏感:

  • MSE训练模型:需设置2个“分数锚点”(如L1=0,L4=1,L2=α₁,L3=α₂)+2个“阈值”(β₁,β₂),共4个超参
  • CE训练模型:需设置4个“概率权重”+2个阈值,共6个超参
  • 例:当β₂从0.3调整到0.7时,传统方法的Online Macro F1从41.42波动到65.26(表7),稳定性极差
4.5.2 CumPT的核心思想

基于“标签优先级”(L4>L3>L2>L1),累积概率并与“单超参β_cum”比较——无需手动设置锚点或权重,仅需调整β_cum即可控制“Good/Mid/Bad”的比例。

4.5.3 CumPT算法步骤(Algorithm 1)

示例

  • 样本A:(p1)id(4)=0.6,(p1)id(3)=0.2,β_cum=0.5→步骤1:0.6≥0.5→Good
  • 样本B:(p1)id(4)=0.4,(p1)id(3)=0.2,β_cum=0.5→步骤2:0.4+0.2=0.6≥0.5→Good
  • 样本C:(p1)id(4)=0.3,(p1)id(3)=0.1,(p1)id(2)=0.4,β_cum=0.5→步骤3:0.3+0.1+0.4=0.8≥0.5→Mid
  • 样本D:(p1)id(4)=0.2,(p1)id(3)=0.1,(p1)id(2)=0.1,β_cum=0.5→步骤4:0.4<0.5→Bad
4.5.4 CumPT的优势(实验对比)
表7:传统方法与CumPT的性能对比(β_cum=β₂)
方法阈值macro-F1(离线)Online Macro F1Good F1超参数量
传统方法β₂=0.367.1241.4273.664+
传统方法β₂=0.567.1264.8380.434+
传统方法β₂=0.767.1256.8381.054+
CumPTβ_cum=0.367.1267.0585.371
CumPTβ_cum=0.567.1267.1481.041
CumPTβ_cum=0.767.1267.1781.511

核心结论

  1. 稳定性:CumPT的Online Macro F1始终稳定在67左右,传统方法波动达23个百分点
  2. 简便性:仅需调整1个超参,避免传统方法的“网格搜索调参”(需数天时间)
  3. 性能:CumPT的Good F1普遍高于传统方法,说明分层更精准

5. 实验设计与结果分析

5.1 实验 setup

5.1.1 数据集
  • 来源:淘宝在线搜索日志,手动标注的query-item对(7万条)

  • 查询类型:聚焦4类难查询(覆盖电商场景的核心复杂需求):

    1. 否定类(如“短袖 不粘毛”)
    2. 替代类(如“Miumiu 平替”)
    3. QA类(如“什么药能让头发变黑”)
    4. 知识类(如“不怕车压的油漆”)
  • 标签分布(表3):L4(50%)、L3(5%)、L2(36%)、L1(9%)——相关样本(L4+L3)与非相关样本(L2+L1)比例约1:1,避免类别不平衡影响评估

5.1.2 基线模型
基线模型模型配置训练方式
BERT24层,电商语料预训练(淘宝内部数据)判别式SFT(CE损失)
Qwen3-0.6B0.6B参数量,稠密模型(开源)生成式SFT(LM损失)
Qwen3-30B-A3B30B总参数量,MoE架构(3B激活参数量,开源)生成式SFT(LM损失)
LLM-baseTbstar-42B(淘宝自研LLM),MoE架构(42B总参,3.5B激活参),电商语料预训练生成式SFT(LM损失)
5.1.3 评估指标
  • 离线指标:macro-F1(平衡各类别权重,避免受样本量影响)、各类别F1、Accuracy

  • 在线指标(人工侧评,2000个查询,对比top10结果):

    1. GSB(Good/Same/Bad):测试组比基线组“更好”的比例(如GSB+16.62%=16.62%的结果测试组更优)
    2. Query Goodrate:页面级相关性(查询结果页被评为“Good/Mid”的比例),绝对提升
    3. Item Goodrate:商品级相关性(高度相关商品L4/L3的比例),绝对提升

5.2 离线实验结果:能力验证

表2:离线评估结果(核心模型对比)
模型Class-1 F1Class-2 F1Class-3 F1Class-4 F1macro-F1Accuracy
BERT65.7469.6333.8776.0661.3369.36
Qwen3-0.6B42.0268.1323.5078.1452.9570.29
Qwen3-30B-A3B65.0968.8032.4781.6862.0174.42
LLM-base65.1968.8632.9181.9062.2275.04
TaoSR1(CoT)43.3067.5419.6875.6251.5468.22
TaoSR1(CoT) postCoT57.6372.6427.9181.8860.0175.12
TaoSR1(CoT&DPO) postCoT65.7471.9539.4383.0065.0376.49
TaoSR1(CoT&DPO&GRPO) postCoT67.3473.1544.9483.0667.1276.86
关键结论:
  1. 领域预训练重要:BERT(电商预训练)优于Qwen3-0.6B(通用预训练),LLM-base(Tbstar-42B,电商预训练)优于Qwen3-30B-A3B(通用预训练)——证明电商领域知识对相关性预测至关重要
  2. Post-CoT有效:TaoSR1(CoT) postCoT的macro-F1比传统CoT高8.47个百分点,验证“先标签后推理”可缓解误差累积
  3. 三阶段优化递进:SFT→DPO→GRPO,macro-F1从60.01→65.03→67.12,每一步均有提升,证明各模块的必要性
  4. 复杂推理能力增强:Class-3(Related)F1从LLM-base的32.91提升至44.94(+12.03),说明模型更能理解“部分匹配”的复杂规则(如Mate50与Mate50 Pro)

5.3 消融实验:模块有效性验证

5.3.1 消融1:Post-CoT的必要性
模型macro-F1核心结论
TaoSR1(CoT)(think-then-respond)51.54传统CoT误差累积严重,效果差
TaoSR1(CoT) postCoT(respond-then-think)60.01Post-CoT有效缓解误差累积
TaoSR1(CoT&DPO) postCoT65.03DPO在Post-CoT基础上进一步提升
5.3.2 消融2:DPO先于GRPO的原因
模型macro-F1核心结论
TaoSR1(CoT) postCoT60.01无RL优化,基础能力
TaoSR1(CoT&GRPO) postCoT66.84直接GRPO,缺乏Oracle知识,效果略差
TaoSR1(CoT&DPO&GRPO) postCoT67.12DPO引入Oracle知识,GRPO效果更优

原因:DPO处理“pass@N=0”难样本时,用DeepSeek-R1(Oracle)提供正确输出,补充模型未掌握的知识——这是GRPO(仅自我采样)无法做到的,因此DPO是GRPO的必要前置步骤。

5.3.3 消融3:CumPT的优势
方法超参数量Online Macro F1(β=0.5)性能波动(β=0.3→0.7)
传统方法4+64.8341.42→56.83(-27.5%)
CumPT167.1467.05→67.17(+0.2%)

结论:CumPT不仅简化调参,还能大幅提升在线性能的稳定性,避免传统方法的“超参敏感”问题。

5.4 在线实验结果:业务价值验证

表8:在线侧评结果(2000个查询,对比LLM-base)
查询类型案例GSB(相对提升)Query Goodrate(绝对提升)Item Goodrate(绝对提升)
QA类什么药能让头发变黑?+16.62%+6.53pt+5.66pt
替代类Miumiu 平替+34.43%+13.11pt+10.69pt
否定类短袖 不粘毛+10.92%+3.80pt+3.74pt
知识类不怕车压的油漆+18.45%+6.85pt+4.44pt
关键结论:
  1. 替代类查询提升最大:传统模型无法理解“平替”的语义(常检索原品牌),TaoSR1通过CoT推理“平替=非原品牌+相似风格”,因此GSB+34.43%——解决电商“平替搜索”的核心痛点
  2. 知识类/QA类提升显著:需外部知识的查询(如“不怕车压的油漆”需知道油漆硬度标准),TaoSR1通过LLM的通用知识+CoT推理,比仅依赖电商语料的LLM-base更优
  3. 否定类提升稳健:理解“不粘毛”等否定词,避免检索“粘毛短袖”,Query Goodrate+3.80pt——证明模型的语义理解能力增强

6. 结论与展望

6.1 核心贡献

  1. 技术框架创新:提出TaoSR1三阶段优化框架,首次实现LLM在电商相关性预测的直接在线部署,突破传统BERT和LLM的能力瓶颈

  2. 痛点解决方案

    • Post-CoT解决CoT的误差累积与延迟问题
    • Pass@N-DPO+GRPO缓解判别式幻觉
    • CumPT简化部署,提升稳定性
  3. 方法论价值:为LLM在“分类任务”中的应用提供范式,证明“推理链+强化学习”可平衡复杂任务能力与系统约束

  4. 业务价值验证:离线macro-F1提升4.9个点,在线难查询(替代/QA/知识)性能显著提升,可直接落地电商平台

6.2 未来方向

  1. 多模态扩展:当前仅处理文本(查询+商品标题),未来可加入图片(如“红色连衣裙”→商品图片颜色匹配)、视频等多模态信息
  2. 实时更新机制:电商业务规则(如新品类、新品牌)会动态变化,未来可设计“实时RAG知识库更新”,让模型无需重新训练即可适配新规则
  3. 模型压缩:Tbstar-42B参数量较大,未来可探索“MoE剪枝”“量化”等技术,进一步降低在线延迟
  4. 跨场景迁移:将TaoSR1框架迁移到其他分类任务(如广告相关性、内容推荐),验证其通用性

附录:关键术语对照表

术语缩写英文全称中文解释
CoTChain-of-Thought思维链:让模型输出分步推理过程,提升复杂任务能力
SFTSupervised Fine-Tuning监督微调:用标注数据微调预训练LLM,适配特定任务
DPODirect Preference Optimization直接偏好优化:通过“正确/错误”样本对优化模型,无需单独训练奖励模型
GRPOGroup Relative Policy Optimization群体相对策略优化:在线多采样,构建群体内相对偏好,提升RL稳定性
RAGRetrieval-Augmented Generation检索增强生成:检索外部知识库信息辅助生成,避免模型记忆偏差
CumPTCumulative Probability Tiering累积概率分层:基于标签优先级累积概率,用单超参实现多档分类,简化部署
GSBGood/Same/Bad在线侧评指标:测试组比基线组“更好/相同/更差”的比例,衡量相对优势
MoEMixture of Experts混合专家模型:将模型分为多个“专家”子模型,仅激活部分专家,平衡参数量与速度