ACL 2025 | 一种用于电子商务query意图分类的半监督可扩展统一框架针对电商查询短、缺乏上下文信息以及现有方法

本文入选顶会ACL 2025

query意图预测包含类目、品牌等分类任务，对电子商务应用至关重要。电商query通常简短且缺乏上下文信息，标签间的信息无法利用，导致建模所需的先验信息不足。大多数现有的工业级查询分类方法依赖于用户后续的点击行为来构建训练样本，从而陷入了马太福音式的恶性循环。此外，查询分类的各个子任务缺乏统一的框架，导致算法优化效率低下。我们提出了一种半监督可扩展统一框架（SSUF），该框架包含多个增强模块，用于统一查询分类任务。知识增强模块利用世界知识来增强查询表示，解决查询信息不足的问题。标签增强模块利用标签语义和半监督信号来降低对后验标签的依赖。结构增强模块基于复杂的标签关系来增强标签表示。每个模块都具有高度可插拔性，可以根据每个子任务的需要添加或移除输入特征。经过大量的离线和在线 A/B 实验，结果表明 SSUF 的性能明显优于业界最先进的模型。

论文链接： aclanthology.org/2025.acl-in…

一、业务背景

Query意图识别是搜索的基础模块，主要目标是准确全面的理解用户的搜索意图信息（类目、品牌、产品词等），为下游的召回/相关性/排序提供决策信息和特征。

query意图识别算法训练以用户点击sku的类目/品牌为标签。这种模型训练数据的构造方式，主要存在以下类型的query意图召回率不足问题：

•泛词的多意图：侧重知识类，词与具体商品之间需要知识关联，例如：水果，生日礼物，灯；

•歧义词的多意图：多意图query下，基于样本生成逻辑，会偏向主意图，弱化甚至丢失次意图，导致召回问题，例如：小米（粮食or手机？），苹果（水果or手机？）；

•长尾类目冷启：由于用户点击数据的马太效应，使得大量的长尾类目没有曝光机会，类目下商品无法获得点击，加深了模型无法得到长尾类目训练数据的问题，例如：服务类，健康类，工业品类；

•长尾query的多意图：由于用户背景和表达习惯不同，对同类商品需求，会有多种表达方式，产生很多长尾query。模型给出的类目不准，因此产生的点击数据也不够准确。

举例说明：

例如：用户搜“耳机”，相关类目包含 862-手机耳机，842-蓝牙耳机... 等9个三级类目。由于马太效应，系统只能展现出1~2个高点击类目的商品，中长尾类目下商品无展现。

相比于热门类目，长尾类目下的商品很难获得流量和用户点击，存在严重的样本不均衡问题，导致识别模型无法识别用户对长尾类目下商品的意图。这反过来加重了长尾类目无法获得流量的问题，形成恶性循环。

二、动机&挑战

工业界（HCL4QC（2023 阿里）、HQC（2024 Amazon））和学术界（XML-CNN、LEAM、LSAN）query意图识别算法存在的问题：

问题一：先验信息不足

•电商query短，缺上下文；

•无法完整地建模类目间关系；

•对语义特征不明显的query，模型泛化能力弱；

•label间信息无法利用，导致相关label召回不足；

问题二：马太恶性循环

•强势商品导致马太效应；

•对样本绝对稀疏的query，现有的分类范式无能为力；

•训练依赖后验导致马太恶性循环

问题三：子任务无法统一

•query意图理解各子任务缺少统一框架，算法迭代效率低。

•子任务各自独立，无法互相增强

三、算法方案

基于半监督可扩展的意图识别统一框架：

算法方案：

通过引入先验知识和模型的优化，增强模型对电商知识的感知，弱化模型对后验反馈的依赖：

（1）标签增强-打破后验马太的恶性循环

•引入label文本等，增强label侧的语义表征。

•用知识增强的先验半监督标签，打破对后验依赖。

•用graph encoder学习融合后的关系矩阵，得到label embedding。

论文直接使用标签索引（label index）作为标签嵌入（label embedding），而是采用 BERT作为标签编码器，以学习标签的语义表示。文本编码器的输入是标签的字符序列，该序列由两部分组成：(1) 标签名称 $n = [n_1, n_2, ..., n_L]$ ，以及 (2) 增强的标签辅助信息（side information） $m = [m_1, m_2, ..., m_{L_m}]$ 。其中，辅助信息来源于：(1) 标签描述，例如产品词、高频搜索查询词等；(2) 由大语言模型（LLM）生成的世界知识。

标签的字符序列被输入到 BERT 中以编码标签表示：

其中 $\mathbf{C}_j \in \mathbb{R}^{1 \times d}$ 是 BERT 最后一层的 “CLS” 表示。同理，可以获得查询（query）的表示 $\mathbf{Q}_i \in \mathbb{R}^{1 \times d}$ 。

（2）知识增强-增强query侧的语义表征

•LLM产出事实知识

•用户行为知识

论文提出了一个半监督模块来克服后验标签的局限性。然而，论文发现对于语义模糊的查询，直接计算查询和标签的半监督标签往往是不准确的。例如，查询“Black 16pro”指的是一款苹果手机型号，但由于语义信息不足，其与“手机”和“二手手机”等相关标签的相似度得分较低。这导致半监督信号无法有效地召回相关标签。为了解决这个问题，论文引入了一个知识增强模块来改进用于半监督标记的查询表示。

可以使用 (1) 后验知识（例如用户经常点击或购买的产品标签），以及 (2) 从 LLM（大语言模型）提取的世界知识作为输入。为了获得查询的世界知识，论文将查询和相关产品输入到开源 LLM 中以总结出简短描述，该描述可能包含相关的查询、类别、产品等。有了这些信息，模型可以全面地编码查询的语义表示。

在获得后验知识和世界知识后，将它们输入到一个共享的文本编码器中：

从而获得知识嵌入 $\mathbf{K} \in \mathbb{R}^{|K| \times d}$ 。

为了将这些知识嵌入与查询表示 $\mathbf{Q}_i$ 融合，使用了一个注意力模块，其公式如下：

其中 $\mathbf{\alpha}$ 是注意力分数， $\mathbf{q}_i^{\prime} \in \mathbb{R}^{1 \times d}$ 是最终融合后的查询表示。

论文计算融合后的查询表示与标签表示之间的相似度分数，并将其作为半监督标签。具体来说：

其中 $\mathbf{s}_i \in \mathbb{R}^{1 \times |C|}$ 是查询 $q_i$ 与所有类别之间的相关性分数。 $\tau$ 是用于过滤低分种类别的阈值。 $\mathbf{y}^{semi}_{ij}$ 是半监督标签。

查询和标签都使用相同的文本编码器，但它们的词分布是不同的。将半监督信号的梯度回传到半监督标签模块可能会产生循环依赖，潜在地导致模型崩溃（model collapse）。为了防止这种情况，禁用了来自该分支的梯度回传。

（3）结构增强-增强label侧的关系表征

•基于标签间语义关系、共现关系、结构关系等，构建标签关系图。

•多种关系邻接矩阵融合与学习。

关系图构建：

首先，论文通过统计训练样本中类别共同出现的次数，获取类别间的共现关系。随后，计算两个类别的条件概率，并得到共现邻接矩阵：

其中， $N(c_i, c_j)$ 是标签 $c_i$ 和 $c_j$ 的共现频次， $N(c_i)$ 表示标签 $c_i$ 的出现频次。 $\alpha$ 是用于过滤低相关性边权的阈值。 $\mathbf{A}^{coo} \in \mathbb{R}^{|C| \times |C|}$ 即为共现邻接矩阵。

接着，通过计算每对类别之间的余弦相似度，获取类别间的语义相似度关系邻接矩阵：

其中， $\beta$ 是过滤低相关性边权的阈值。

对于某些查询分类子任务（如意图或类别预测），各级标签之间存在层级结构（Hierarchical Structure）。这种结构有助于加强相关标签之间的联系，并削弱无关标签之间的紧密度。为了利用这一结构，将其编码为层级关系邻接矩阵：

其中， $Child(k)$ 是节点 $k$ 的子节点集合，且 $i, j \in Child(k)$ 。 $m_j$ 是数据集中节点 $j$ 被用户点击的频次。 $|C'|$ 表示所有标签的数量（包括一级标签、二级标签和叶子标签），而 $|C|$ 则表示叶子标签的数量。

关系图融合和学习：

除了上述三种标签关系图外，每个子任务还可以根据现有的输入数据和业务特性，相应地增加或减少标签图的数量。

在获得标签相关性矩阵后，将这些矩阵进行融合，并使用归一化方法~\cite{kipf2017semi}对融合后的矩阵进行归一化处理：

其中， $\rightarrow$ 表示赋值符号。赋值过程如图~\ref{model_structure}所示。 $\mathbf{A} \in \mathbb{R}^{ |C'| \times |C'|}$ 为最终的邻接矩阵。 $\mathbf{I}$ 是单位矩阵。 $\mathbf{D}$ 是对角度矩阵（diagonal degree matrix），其元素为 $\mathbf{D}_{ii} = \Sigma _{j}\mathbf{A}_{ij}$ 。最后，利用 GCN~\cite{kipf2017semi} 从最终的邻接矩阵 $\mathbf{A}$ 中学习节点的表示 $\mathbf{H} \in \mathbb{R}^{|C'| \times d}$ 。

虽然长尾标签的训练样本有限，但通过复杂的标签关系，这些标签可以轻易地与其相关的热门（Hot）标签建立联系。这种关系使得梯度能够从热门标签的样本传递到长尾标签的样本，从而实现对长尾标签更有效的表示训练，并缓解了后延标签（posterior labels）的局限性。

（4）统一框架

•基于各子任务的相似性，设计多标签分类的统一框架。

•基于子任务的差异性，设计可插拔的增强子模块。

•可支持意图识别多任务联合训练，各任务之间信息互相补充，相互增强。

论文将用户的输入查询 $\mathbf{q}_i \in \mathbb{R}^{1 \times d}$ 分类到叶子标签空间（leaf labels space），而非所有层级的标签。因此，从 $\mathbf{H}$ 中提取并获得叶子标签的嵌入 $\mathbf{H}_l \in \mathbb{R}^{|C| \times d}$ 。最后，论文使用一个交互层将查询投影到标签空间：

其中 $\mathbf{b} \in \mathbb{R}^{1 \times |C|}$ 是偏置项， $\widehat{\mathbf{y}}_i \in \mathbb{R}^{1 \times |C|}$ 是查询 $q_i$ 的预测标签分布。

为了利用后验标签和先验标签优化模型，将它们融合如下：

其中 $\mathbf{y}_i^{click}$ 是查询 $q_i$ 被点击标签的 Multi-hot 编码， $\mathbf{y}{i}$ 的取值范围为 $\mathbf{y}{i} \in [0, 1]$ 。使用二元交叉熵损失（Binary Cross-Entropy Loss）作为训练模型的目标函数。

四、实验效果

4.1 离线效果

对比方法：

•（学术界）多标签分类算法：XML-CNN、LEAM、LSAN

•（工业界）query意图分类算法：DPHA、MMAN、HCL4QC（2023 阿里）、SMGCN（2024 JD）、HQC（2024 Amazon）

•消融分析：

◦w/o KE：移除知识增强模块。

◦w/o KE & LE：移除知识增强和标签增强模块。

◦w/o SE：移除结构增强模块。

◦w/o SE-S：移除结构增强模块中的语义相似关系增强结构。

◦w/o SE-C：移除结构增强模块中的标签共现关系增强结构。

◦w/o SE-H：移除结构增强模块中的标签层次关系增强结构。

•与多标签基线模型和查询分类方法相比，SSUF 在这两个任务上F1值都表现出了显著的效果优势。

•当移除 SE 模块时，与（完整的）SSUF 相比，两个数据集上的性能均出现轻微下降。移除共现图时也观察到了类似的现象，这表明相似度图或共现图包含了后验数据中所忽略的额外信息。

•当我们同时剔除相似度图和共现图时，F1下降超过了 5%。在移除三个模块后，F1 值均下降了 8%。进一步证明，SSUF 中的所有这些组件提供了彼此互补的信息，且对于query分类任务而言是不可或缺的。

4.2 在线部署与A/B测试

线上部署：

为了降低部署延迟，SSUF 的文本编码器采用了与线上模型一致的四层 BERT 模型。此外，我们只需缓存 GCN 生成的类别向量，而无需直接部署 GCN。这样，我们就可以在不增加任何额外计算量和延迟的情况下部署 SSUF。

上图展示了 SSUF 在搜索系统中的作用。当用户输入query时，SSUF 首先预测用户的意图并识别相关类别，并将此信息传递给下游模块。然后，基于向量的检索模块查找与这些类别关联的条目。检索到的商品与来自其他检索源的商品相结合，并由一个子模块进行过滤，以移除与用户意图不匹配的商品。过滤后的商品随后被发送到排序模块。

A/B测试：

•与在线模型相比，SSUF 在业务指标上取得了显著提升。广告曝光量（Impressions）和点击量（Clicks）的增加表明，广告系统召回了更多相关的商品，且这些商品与用户的偏好及搜索意图有效契合。

•移除 SSUF 的任意子模块均会导致性能下降，这进一步验证了各模块的有效性及其在 SSUF 内部的协同整合作用。

•离线和在线实验结果均一致证明了 SSUF 的高效性、通用性与可扩展性。