OneMall：一种架构，多种场景 —— 快手电商端到端生成式推荐家族摘要在生成式推荐的浪潮中，我们提出了 OneMa

摘要

在生成式推荐的浪潮中，我们提出了 OneMall，这是一个为快手电商服务量身打造的端到端生成式推荐框架。OneMall 系统地整合了电商的多种商品分发场景，如商品卡片、短视频和直播。具体而言，它包含三个关键组件，使整个模型训练流程与大语言模型的预训练 / 后训练相匹配：

电商语义分词器： 我们提供了一种分词器解决方案，能够捕捉不同场景下的真实世界语义和特定业务的商品关系；
基于 Transformer 的架构： 我们主要采用 Transformer 作为模型骨干，例如，使用 Query-Former 进行长序列压缩，使用交叉注意力进行多行为序列融合，以及使用稀疏 MoE 实现可扩展的自回归生成；
强化学习流程： 我们通过强化学习进一步连接检索和排序模型，使排序模型能够作为端到端策略检索模型优化的奖励信号。

大量实验表明，OneMall 在所有电商场景中都实现了持续改进：商品卡片场景的 GMV +14.7%，短视频场景的 GMV +10.3%，直播场景的 GMV +4.9%。OneMall 已完成部署，为快手超过 4 亿日活跃用户提供服务。

1 引言

大语言模型成功经验。 众所周知，OpenAI的缩放定律为NLP领域中LLM的缩放技术路线做出了显著贡献。这些定律直接促使众多研究人员从数据量、模型大小、计算资源和推理等角度去追求LLM的智能上限。回顾来看，LLM的成功可归功于以下进展：

使用大规模数据量/模型参数进行下一个 token 预测的预训练：由于NTP损失将所有任务统一在相同的预测范式中，因此大型语言模型能够支持大规模的万亿 token 互联网训练语料数据和模型参数扩展。例如，从早期具有0.03B参数的密集激活模型（如GPT-2）发展到包含671B参数的稀疏激活模型（如深度求索V3）。
后训练推理强化学习：在预训练基础模型的基础上，强化学习进一步使模型的行为更贴合人类偏好。例如，从早期的高质量数据SFT到DPO/GRPO/GSPO系列微调。
基础设施并行技术：由于 Transformer 优雅的 GPU 友好架构，它启发了分布式系统中各种并行技术的发展，包括：（1）完全分片数据并行（ZeRO系列）；（2）张量并行；（3）序列并行；（4）流水线并行；（5）上下文并行等，以提高模型训练/推理效率。

随着预训练、后训练和基础设施的进步，在可接受的时间和计算资源限制内，使用数千亿参数对大量token进行训练的瓶颈已显著缓解，这一目标也成为可能。这使得 LLM 领域能够不断培育接近人类水平的高级人工智能，并催生出许多超智能系统，如聊天机器人、视觉生成、代码智能体等。鉴于 LLM 取得的这些成功，许多行业研究人员一直在思考一个问题：我们能否在推荐系统（RecSys）的预训练/后训练过程中复制大语言模型的发展轨迹？

推荐系统的背景。事实上，这是一个具有挑战性的开放性问题，因为工业界的推荐系统与 LLM 在任务定义上并不完全一致，这使得将模型结构直接升级为完整的 Transformer 模块变得困难。为了更好地理解这种差异，我们首先介绍当前推荐系统链条中两种重要推荐模型的设计思路及其目标：

第一阶段，生成式召回模型：这类模型着重利用用户端的历史交互日志来预测用户尚未交互过的其他日常热门物品。例如，根据用户最近的100条交互日志，从每日热门物品池中检索出1000件物品。总体而言，这可以看作是多目标（候选）的 "Next-Item prediction"。
第二阶段，判别排序模型：这一系列模型侧重于根据用户和候选物品端特征来估计将要发生的行为的精确概率。例如，预测点击率（CTR）、转化率（CVR）等，可以将其视为一种多目标范式，用于判断哪个物品更能吸引用户。

在这两种目标截然不同的范式下，这两类模型通常是相互独立优化的，并且长期以来以级联方式来支持推荐链条，得到了大公司的广泛认可。因此，推荐系统领域的普遍认知是存在两条不同的扩展技术路线。

排序模型的Scaling？ 粗略地说，在过去几年里，工业界推荐系统的许多知名进展都来自第二阶段的判别式排序模型，例如如何根据候选物品信息搜索出有效的用户历史行为子序列（如DIN/SIM/TWIN）以及多目标优化（如MMoE、HoME）。我们承认，判别式排序模型在过去几年中一直是核心增长引擎，特别是级联的 GSU/ESU 架构将历史序列扩展到了终身层面。然而，在带来显著收益的同时，当前的判别式技术路线也存在其内在局限性：

计算不平衡：与 Transformer 不同，在 Transformer 中，所有输入 token 都具有相同的参数空间和计算成本，例如，所有参数都会与所有输入 token 进行交互。在排序模型中，不同组件的参数通常是相互分离的。这导致了一个问题，即不同模块对整体计算负载的贡献不均衡。例如，总计算量中约 30% 分配给了类 TWIN 的 ESU 模块，这些模块需要端到端的长序列推理，而只有约 10% 分配给了其他用于 top-k 序列推理的 ESU 模块。
复杂计算：与纯生成式的基于 Transformer 的模型不同，后者具有简单的计算单元，这些单元可以拆分为并行计算单元，在分布式训练节点间实现负载均衡，而判别式系列推荐系统（RecSys）模型的计算流程过于复杂，难以利用最先进的并行计算技术。

由于这两个局限性，一些开创性的工作被提出来用于扩展排序模型，例如 MARM、Rank-Mixer 等。然而，它们的架构与经典的 Transformer 有显著差异，这使得直接借鉴 LLM 领域的成功经验变得困难。

图1：快手的三大电商类型，其中商品卡片代表一种特定商品，短视频通常只关联一个商品卡片，直播则可以同时销售多个商品卡片。

召回模型的规模扩展？ 相比之下，检索模型的生成式 "Next-Item prediction" 范式与 LLM 中的 "下一个token预测" 范式高度一致。不同之处在于：召回模型通常有多个下一个真实item，而在自然语言处理中，对于给定的item序列或token序列，几乎只有一个真实token。这是因为工业系统通常会同时向用户设备发送一批item（例如，每次请求发送10个短视频），因此这些下一项在召回模型中会共享相同的预填充用户交互item序列。基于这一特点，长期以来，召回模型的研究重点一直在于对多样性的建模。随着基于 Transformer 的序列建模的最新进展，一种有前景的替代方案逐渐显现：多样性可以通过生成式beam-search过程中的受控探索（例如，通过适当的温度参数）来内在地实现。这种范式转变促使研究人员探索用于生成式召回的自回归生成框架，该框架能够自然地平衡兴趣探索的深度（相关性）和广度（多样性）。目前，已经出现了两种主流框架：

基于 ANN 的多兴趣框架：这是最常见且经典的架构，其中用户兴趣通过用户塔压缩为多个嵌入，物品属性通过物品塔压缩为单个嵌入，然后使用 InfoNCE 损失来拟合数据分布。在推理过程中，这些多个用户嵌入用于在嵌入空间中检索其他最近邻物品。例如，为每个兴趣头/嵌入分配相等的配额（例如100），如Kuaiformer、MIND。
基于自回归的框架：受 LLM 的启发，这一分支的方法首先将每个item token 化为多级语义 ID，然后利用用户的历史序列作为输入，以回归训练的方式生成下一个项目的多级语义 ID。在推理阶段，我们可以采用 beam-search 生成数百个多级语义ID，以解码相应的候选项目，例如 TIGER。

实际上，这两种架构都为推荐领域带来了重大进展，而 ANN 范式支持了许多早期的传统召回方法。与LLM beam-search推理技术相一致的自回归 beam-search 范式，为生成式召回开辟了新的方向。

动机。 受易于扩展的自回归范式 TIGER 的启发，许多研究人员已开始将其部署到实际的工业级业务服务中，以探索推荐中的 GPT 时刻。最具影响力的成果是 OneRec 系列，它提供了一个与先进的 LLM 技术相契合的统一端到端生成式推荐框架：

采用纯Transformer架构（预训练）主干，结合 beam-search 生成下一个候选项。
应用强化学习（后训练）将召回基础模型和排序奖励模型连接成一个端到端系统。

虽然 OneRec 初步验证了在推荐中利用 LLM 衍生的生成式范式的可行性，但其设计存在本质上是为娱乐短视频服务量身定制的。然而，对于电商营收服务而言，它与娱乐短视频服务存在许多不相容的需求，其中包括：

与短视频不同，电商服务具有多种内容类型，如商品卡片、短视频、直播（如图1所示），因此需要同时考虑产品固有的销售属性和内容观看体验。
在短视频服务中，用户对观看各类内容的容忍度更高，并且会留下足够多的正向行为；而在电商内容中，用户的决策成本更高，依赖从曝光到点击再到转化的漫长漏斗，因此正向行为往往极为稀少。
与多目标优化不同，电商业务仅专注于提高 GMV 这一目标，这种单一目标对模型的能力提出了显著更高的要求。

这些问题在以往的研究中尚未得到充分解决，需要进一步探索。

贡献。 为此，我们分享了在电商领域的第一手实践经验，并提出了一个适用于多种商品形式的端到端生成式推荐解决方案系列，命名为 OneMall。在 OneMall 中，我们深入研究了（i）item语义分词器在电商中的适配；（ii）用于融合用户长短期兴趣与商品属性的生成式模型架构；（iii）连接奖励排序模型的强化学习范式设计，以获取更丰富的正向行为反馈和精准的优化方向。我们关于 OneMall 的关键修改见解如下：

电商中的商品分词器：作为生成式推荐的基础，如何将商品分词为多级语义ID极为重要，这需要同时反映现实世界的商品关系和业务商品关系。具体而言，不同的商品形式在我们的系统中扮演着不同的角色：（1）商品卡片类商品仅在购物tab向用户展示，仅用于购物目的；（2）短视频和直播类商品在购物tab和娱乐tab均有展示，需要同时考虑购物和用户观看体验；（3）直播端的语义ID 应随着销售商品的变化而动态更新。
生成式模型架构：在模型设计阶段，我们主要采用几种 Transformer 变体作为骨干架构，包括（1）用于更长序列压缩的Query Transformer、（2）用于信息提取的Cross Transformer，以及（3）用于自回归序列生成的 Decoder-Style Sparse MoE Transformer。同时，为了缓解语义ID冲突，我们还以真实目标 item 作为辅助目标进行 batch 内对比学习，这显著提升了我们模型的预测性能。
强化学习：在自然语言处理领域，如何促使 LLM 生成符合人类偏好的高质量响应是一个重要课题。同样，从推荐系统的角度来看，如何促使召回模型生成能让用户感兴趣、具有更高点击率/转化率（即奖励）的item，对我们的系统而言也很重要。为了解决这一长期存在于传统级联召回-排序pipeline中的隔离问题，我们因此将在线排序模型作为奖励模型引入，从而实现细粒度的监督，以端到端的方式实时感知不同item之间的相对质量。

我们工作的主要贡献如下：

我们详细阐述了一个用于电商服务的端到端生成式推荐框架，包括（i）多样化的商品类别分词器设计、（ii）纯Transformer 设计、（iii）由排序模型奖励监督的强化学习。据我们所知，这是首个与最新 NLP 技术相结合的电商服务相关研究，这将为其他研究人员探索更稳健的电商服务提供启发。
我们在快手电商服务上进行了大量的离线和在线实验。离线实验表明，所有预测任务都得到了显著改进，在线实验中，商品卡片的GMV +14.7%，短视频的GMV +10.3%，直播的GMV +4.9%。
OneMall 已在各类服务中广泛部署，支持每日4亿活跃用户。

2 预备知识

2.1 特征、召回与排序流水线

图2：工业推荐系统链中的模型结构：（a）双塔召回模型；（b）更多特征的排序模型；（c）推荐系统链路，首先通过召回模型的用户塔，然后输入到排序模型以获得融合分数。

图2展示了一个工业级推荐系统链路的简单原型。它由三个基本元素组成：特征工程、召回模型和排序模型。

特征工程：对于我们应用中的每个 user-item 曝光，都会将特征和真实标签组合成一个样本，用于one-epoch训练设置下的模型输入。实际上，这些特征可以分为三组：（i）用户特征，例如最近点击/购买序列；（ii）目标物品特征，例如物品标签、语义IDs；（iii）用户-物品交叉特征，例如具有相同目标物品标签的最近点击/购买序列。
召回模型：尽管存在三组特征，但召回模型只能使用用户和物品特征集，因为我们在推荐系统链路中只能利用用户特征/组件（如图2（c）所示）。因此，召回模型通常遵循双塔范式，采用单一的监督目标，并且为了避免信息泄露，会跳过用户-物品交叉特征（如图2（a）所示）。
排序模型：在排序模型设计中，为确保最精确的预测，所有特征和标签都将被涉及以支持模型训练（如图2（b）所示），因此排序模型的预测准确率显著高于召回模型，并且这些预测分数将融合为一个联合分数来对候选item进行排序，例如Pantheon集成排序。

2.2 Res-Kmeans 语义分词器

分词器是自回归token预测范式的基石，其目的是利用token ID来表示特定的唯一语义。在推荐系统中，如何将推荐系统中的一个item转换为token序列（即语义IDs）是一个开放性话题，近年来已有许多研究探索了可学习/启发式并行/残差技术。在 OneMall 中，我们主要应用 QARM 的 Res-Kmeans 启发式残差技术作为分词器，将 item 嵌入映射到多级语义ID中。具体而言，Res-Kmeans方法包括以下步骤：

数据收集：随机采样了数千万个物品嵌入集 $M \in \mathbb{R}^{N×d}$ ，其中物品嵌入可以由微调的大模型或双塔检索模型的物品塔生成。
残差码本训练：根据项目嵌入集 $M$ ，接下来执行多层 Kmeans 算法以获得残差码本 $\{C^{1}, C^{2}, ..., C^{L}\}$ ，其中 $C^{·} \in \mathbb{R}^{K ×d}$ ， $\text{NearestRep}$ 表示对应码本的最近表示。

\begin{align*} \mathbf{C}^1 &= \text{Kmeans}(\mathbf{M}, K), & \mathbf{M}^1 &= \mathbf{M} - \text{NearestRep}(\mathbf{M}, \mathbf{C}^1) \\ \mathbf{C}^2 &= \text{Kmeans}(\mathbf{M}^1, K), & \mathbf{M}^2 &= \mathbf{M}^1 - \text{NearestRep}(\mathbf{M}^1, \mathbf{C}^2) \\ &\dots, & \mathbf{C}^L &= \text{Kmeans}(\mathbf{M}^{L-1}, K) \end{align*} \tag{1}

语义ID推理：一旦残差码本 $\{C^{1}, C^{2}, ..., C^{L}\}$ 完成训练，就会将其冻结，以对现有和新 item 进行推理，生成它们的语义ID。对于每个 item 嵌入 $\text{m}$ ，工作流如下：

\begin{aligned} c_1 &= \mathrm{NearestCode}(\mathbf{m}, C^1), \quad & \mathbf{m}^1 &= \mathbf{m} - C^1_{c_1} \\ c_2 &= \mathrm{NearestCode}(\mathbf{m}^1, C^2), \quad & \mathbf{m}^2 &= \mathbf{m}^1 - C^2_{c_2} \\ & \dots \\ c_L &= \mathrm{NearestCode}(\mathbf{m}^{L-1}, C^L) \end{aligned} \tag{2}

其中， $\text{NearestCode}$ 表示对应码本的最近表示索引，其多级语义ID可以表示为 $\{c_{1}, c_{2}, ..., c_{L}\}$ 。

3 OneMall 工作流

本节阐述我们的 OneMall 设计见解。

图3：（a）商品/短视频i2i数据集LLM微调过程；（c）结合销售商品语义ID的直播嵌入生成；（b）ResKmeansFSQ分词器，不同场景使用不同的嵌入候选

3.1 电商语义分词器

在电商中，每个商品都是一个具有特定语义的独特实体，因此分词器的一个基本要求是必须能够保留并明确体现通用世界语义。同时，从业务角度来看，电商商品通常分为三类：图1中的商品卡片、短视频和直播。它们遵循不同的推荐逻辑：（i）商品卡片仅在用户进入购物标签页时才会显示，这表明用户有购买意向。（ii）然而，短视频和直播则在多个渠道（购物标签页、娱乐标签页等）展示。因此，有必要同时考虑用户的观看体验以及所售产品是否符合他们的兴趣。此外，短视频通常只销售一种商品，而直播可以同时销售多种不同的商品。（iii）直播销售的商品可能会随着时间变化，其背后的潜在语义也应相应演变。如何反映现实世界中商品的一般语义关系及其商业意图，是构建一个强大的电商分词器的关键，例如，商品卡片（商业性）、短视频（商业性和观看性）、直播（商业性、观看性和动态性）。

为了达到这些限制，我们选择使用业务数据微调的LLM作为分词器，因为大模型可以为所有热门/长尾物品提供公平的业务知识和精确的世界语义。在这里，我们主要扩展了 QARM 的 Item2Item 对比调优pipline：（1）业务Item2Item数据过滤（2）语义压缩主干（3）训练/推理流程。

3.1.1 业务Item2Item数据筛选

具体来说，我们收集两种类型的Item2Item数据，以考虑商品固有的商业价值和观看价值。

商品卡片内在商业关系：为捕捉业务内的商品内在商业关系，我们导出了大量在产品卡片项目中具有较高相似度的i2i对，例如双塔召回模型商品嵌入空间或Swing i2i统计算法得到的最相近其他商品。基于（产品卡片ID，产品卡片ID）语料库，我们采用简单的下采样过滤，确保每个项目出现不超过40次以避免曝光偏差，最终收集到7000万个样本。
短视频观看关系：为了将观看体验注入分词器，我们进一步收集了娱乐短视频和电商商品卡片对的语料库。具体来说，对于每个被正向点击的商品，我们选择最近被长时间观看、且观看间隔在1分钟以上5分钟以下的娱乐短视频，构成正向的（短视频ID，商品卡片ID）对。需要注意的是，短视频ID既包括娱乐短视频，也包括电商短视频。为确保所构建数据集的质量，我们进一步实施了三种过滤策略：（1）过滤“新闻”、“喜剧”、“舞蹈”、“影视”和“自拍”类娱乐短视频；（2）对高频商品进行下采样；（3）对来自同一用户的i2i对进行下采样。最终收集到1200万个样本。

3.1.2 语义压缩主干

基于过滤后的商品（商品卡片ID,商品卡片ID）和观看（短视频ID,商品卡片ID）Item2Item语料库，我们接下来将它们用作对齐监督信号，以微调 LLM 使其适配电商业务。对于 LLM 的输入，我们只考虑商品和短视频信息：

商品：主图（224*224）及其标题。
短视频：采样6个图像（224*224）及其标题/OCR(光学字符识别)/ASR(自动语音识别)。

基于这些，我们采用Swin-Transformer作为视觉编码器，Qwen2.5 1.5B作为文本编码器，这些视觉和文本 token 的组织如图3(a)所示。注意我们冻结了 ViT，并使用 InfoNCE 对比目标对 Projector 和 LLM 进行微调，特殊token <EMB> 的最后一个隐藏状态作为最终表示。

3.1.3 语义ID生成流程

到目前为止，我们已经介绍了如何训练一个 LLM 来生成具有通用现实世界语义和业务知识的语义嵌入 $\text{m}$ 。为了将它们转换为语义ID，我们为商品卡片、短视频和直播的推理精心设计了一个pipeline，其中包括两种量化技术：Res-Kmeans和FSQ。对于前两层的Res-Kmeans，我们按如下方式运行：

商品卡片：由于商卡仅代表商业意图，因此我们仅使用 LLM 生成的商品卡片嵌入作为 $\text{m}$ 来进行量化。
短视频：电商短视频需要同时体现商业性和观看体验，因此我们将 LLM 生成的商卡嵌入与短视频嵌入拼接起来作为 $\text{m}$ 进行量化。
直播：直播内容和销售商品会动态变化，因此我们无法直接生成其语义ID。在 OneMall 中，我们利用双塔风格召回模型的 item 塔生成的嵌入来做量化，并将实时销售商品的语义ID作为额外特征。此外，为了缓解语义编码的过高变化率，我们为 item 塔采用了较低的学习率。

对于最后一层FSQ，我们训练一个二进制 16 位 MLP，将残差嵌入 $m−C_{c_{1}}^{1}-C_{c_{2}}^{2}$ 量化为一个 4096 维二进制编码，可以显著降低冲突率。为了易读性，我们在这里不详细说明具体公式；整个过程的概述如图3(b)(c)所示。

3.2 Decoder-Only 模型架构

图4：OneMall 的 Transformer 主干

在 OneMall 中，我们采用了多种 Transformer 变体作为骨干架构，包括 Query-Former、交叉注意力（Cross-Attention）、因果自注意力（Casual-Self-Attention），如图4所示。以下是我们的设计思路：

用于长序列压缩的Query Transformers：在电商服务中，用户总是有更高的决策成本，依靠一个曝光-点击-购买的长漏斗。因此，OneMall 需要利用各种不同的行为序列从不同的方面丰富用户的偏好，例如曝光/点击/购买序列等。在序列建模中，如果这些序列连接成一个，就会变得太长，无法承受 Transformer 的复杂度。为了缓解这种情况，我们首先应用 Query-Form 技术来把更长的序列压缩成几十个连续表征：

\mathbf{F}_{\mathrm{click}} = \operatorname{QFormer}_{\mathrm{click}} \left( \mathbf{Q}_{\mathrm{click}}, \mathbf{H}_{\mathrm{click}}, \mathbf{H}_{\mathrm{click}} \right) \tag{3}

其中 $\mathrm{F}_\mathrm{click} \in \mathbb{R}^{M×D}$ ， $\mathrm{Q}_\mathrm{click} \in \mathbb{R}^{M×D}$ ， $\mathrm{H}_\mathrm{click} \in \mathbb{R}^{H×D}$ ，M 表示查询 token 数（例如 10），H 表示输入序列长度（例如 500），D 是嵌入维度（例如 128）。这样 OneMall 可以以较低的计算成本考虑多个不同的序列，例如 $F_{Buy}$ 、 $F_{Exposure}$ 。此外，我们还利用 Query-Form 压缩物品侧特征来生成其表征：

\mathbf{f}_{\text{item}} = \text{MLP}\big(\text{Flatten}(\mathbf{F}_{\text{item}})\big), \quad \mathbf{F}_{\text{item}} = \text{QFormer}_{\text{item}}(\mathbf{Q}_{\text{item}}, \mathbf{I}_{\text{item}}, \mathbf{I}_{\text{item}}) \tag{4}

其中 $\mathbf{f}_{\text{item}} \in \mathbb{R}^{D}$ 是最终的物品嵌入， $\text{Flatten}(·)$ 是模型输入展平的简单操作， $\mathbf{I}_{\text{item}}$ 是物品侧特征序列。

用于历史信息提取的Cross Transformers：接下来，为了融合历史用户端信息 $\{\mathrm{F}_\mathrm{click}, \mathrm{F}_\mathrm{exposure} , \mathrm{F}_\mathrm{Buy}, ...\}$ 来预测下一个物品语义IDs $\{s_{1}, s_{2}, s_{3}\}$ ，我们进一步采用 Cross Attention 机制进行低延迟提取：

\begin{equation} \begin{split} \{\hat{\mathbf{s}}_0^L, \hat{\mathbf{s}}_1^L, \hat{\mathbf{s}}_2^L, \hat{\mathbf{s}}_3^L\} = \text{Cross-Att}^L\big( \\ \{\mathbf{s}_0^{L-1}, \mathbf{s}_1^{L-1}, \mathbf{s}_2^{L-1}, \mathbf{s}_3^{L-1}\} \cdot \mathbf{W}_q^L, \\ \{\mathbf{F}_{\text{click}}, \mathbf{F}_{\text{exposure}}, \mathbf{F}_{\text{buy}}, \dots\} \cdot \mathbf{W}_k^L, \\ \{\mathbf{F}_{\text{click}}, \mathbf{F}_{\text{exposure}}, \mathbf{F}_{\text{buy}}, \dots\} \cdot \mathbf{W}_v^L \big) \end{split} \tag{5} \end{equation}

其中 $\mathbf{W}_q^L / \mathbf{W}_k^L / \mathbf{W}_v^L \in \mathbb{R}^{D×D}$ 是第 L 层 Cross-Attention 的可学习参数矩阵， $\{s_{0}^{L-1}, s_{1}^{L-1}, s_{2}^{L-1}, s_{3}^{L-1}\}$ 表示相应的输入。注意， $\{s_{0}^{0}, s_{1}^{0}, s_{2}^{0}, s_{3}^{0}\}$ 是 $\{<BOS>, s_{1}, s_{2}, s_{3}\}$ 的 LookUp 嵌入。

用于自回归序列生成的 Decoder-Style Sparse MoE Transformers：为了在保持高效推理的同时进一步扩展模型容量，我们采用了解码器风格的稀疏混合专家（MoE）Transformers 作为自回归生成模块的核心。对于解码器的每一层，我们首先对语义 ID 序列应用因果自注意力以保持自回归约束，然后将输出通过 Sparse MoE，以捕获语义 ID 中的复杂语义模式：

\begin{align*} \{\bar{s}_0^L, \bar{s}_1^L, \bar{s}_2^L, \bar{s}_3^L\} &= \text{Casual-Self-Att}(\{\hat{s}_0^L, \hat{s}_1^L, \hat{s}_2^L, \hat{s}_3^L\}), \\ \{s_0^L, s_1^L, s_2^L, s_3^L\} &= \text{Sparse-MoE}(\{\bar{s}_0^L, \bar{s}_1^L, \bar{s}_2^L, \bar{s}_3^L\}) + \{s_0^{L-1}, s_1^{L-1}, s_2^{L-1}, s_3^{L-1}\} \end{align*} \tag{6}

其中，Casual-Self-Att(·) 表示标准的掩码自注意力，而 Sparse-MoE(·) 是扩展模型参数的关键组件。为了专家负载均衡，我们使用 loss-free 机制来进行约束。

监督目标：对于模型监督信号，我们将自回归下一个 item 的语义 ID 生成作为主要训练目标，同时将双塔风格的 batch 内对比学习任务作为辅助目标：

\begin{align} \mathcal{L}_{\text{NTP}} &= \text{Softmax}(\{s_0^L, s_1^L, s_2^L\}, \{s_1, s_2, s_3\}), \\ \mathcal{L}_{\text{contrastive}} &= \text{In-batch-contrastive}(s_3^L, f_{\text{item}}) \end{align} \tag{7}

其中， $L_{NTP}$ 表示自回归 next token 预测训练目标， $L_{contrastive}$ 遵循传统 ANN 方法的 batch 内对比学习设置。不同之处在于： $s_{3}^{L}$ 已经对完整的目标 item 语义 ID 序列进行了编码，这使得对比学习的准确率非常高（accuracy@1超过98%）。因此在线推理中，我们仅采用 beam search 进行召回生成。

3.3 强化学习策略

从早期的 PPO/DPO（DPO是一种近似强化学习方法）到后来的 GRPO/GSPO，这种由 RL 驱动的后训练范式为增强 LLM 的理解和推理能力提供了一个新的令人瞩目的数据扩展方向。为了充分释放强化学习的潜力，并与推荐中先进的 LLM 后训练技术对齐，我们进一步设计了一个召回-排序连接 pipeline。这使得 OneMall 能够生成更符合用户兴趣的物品并获得更高的奖励。形式上，我们将在线排序模型（可以利用所有用户/物品/交叉特征和交互标签）作为奖励模型，因此它可以从不同方面提供更细粒度的预测概率，例如点击率（CTR）、转化率（CVR）、点击转化率（CTCVR）、每千次展示GTV（EGPM）等。基于这些多个预测概率，我们首先应用一个简单的 F1 评分公式对它们进行融合，以估计奖励分数 r：

r = \alpha \times \hat{y}_{\text{ctr}} + \beta \times \hat{y}_{\text{ctcvr}} + \gamma \times \hat{y}_{\text{egpm}} + \dots \tag{8}

其中 $\hat{y}_{\text{ctr}} / \hat{y}_{\text{ctcvr}} /\hat{y}_{\text{egpm}}$ 是排序模型的输出， $\alpha,\beta,\gamma$ 是手工设计的因子，反映了每个 user-item 对的电商价值。为了表示简洁，我们的 RL 流程可以描述如下：

策略模型 $\pi_{\theta}$ ：流式训练中的 NTP 模型参数。
参考模型 $\pi_{\theta ref}$ ：参数会定期从策略模型同步，对于每个查询 $𝑞$ ， $\pi_{\theta ref}$ 可以采样一组响应 $\{o_{1}, o_{2}, \cdots, o_{n}\}$ 。
奖励模型：根据这些响应 $\{o_{1}, o_{2}, \cdots, o_{n}\}$ ，奖励模型进一步标准化为优势分数 $\{A_1, A_2, \dots, A_n\}\ \big(A_i = \frac{r_i - \text{mean}(r)}{\text{std}(r)}\big)$ ，以监督哪些响应应被鼓励或惩罚。
优化策略：关于这些响应及其优势，我们可以利用不同的训练策略来优化 Policy 模型参数 $\pi_{\theta}$ 。整体训练流程如图 5 所示，我们首先使用参考模型生成补全内容，然后使用排序模型生成相应的奖励优势，最后以端到端的方式优化我们的基础策略召回模型，打破召回和排序模型之间的壁垒。我们抽取 2% 的离线训练样本作为模拟请求 $q$ 来运行 RL 策略，并尝试了 DPO/GRPO 策略注入电商奖励知识以优化我们的 OneMall：

DPO：我们根据优势得分 A 对采样响应进行排名，将得分最高的响应视为正样本语义ID $o_{pos}$ ，得分较低的响应视为负样本语义ID $o_{neg}$ ，然后用于监督策略模型的优化。其中 $\lambda$ 是手工设置的系数，例如 0.1-0.5， $\delta$ 是一个避免除零的小正数：

\mathcal{L}_{\text{DPO}} = -\sigma\big(\lambda \log \frac{\pi_\theta(o_{pos}|q)}{\pi_{\theta_{ref}}(o_{pos}|q) + \delta} - \lambda \log \frac{\pi_\theta(o_{neg}|q)}{\pi_{\theta_{ref}}(o_{neg}|q) + \delta}\big) \tag{9}

GRPO：我们从 n 个候选中随机抽取 m 个补全结果， clip(·) 函数用于截断梯度以防止少数异常样本主导整个批次，从而确保训练稳定性：

\mathcal{L}_{\text{GRPO}} = -\sum_{i}^{m} \min\big(\text{clip}\big(\frac{\pi_\theta(o_i|q)}{\pi_{\theta_{ref}}(o_i|q) + \delta}, 1-\epsilon, 1+\epsilon\big) \times A_i\big) \tag{10}

最后，RL损失与公式（7）中的 NTP 损失和双塔对比学习损失一起联合优化，从而注入更丰富的正向行为反馈和更精确的优化方向： $\mathcal{L} = 0.5 \cdot \mathcal{L}_{\text{RL}} + \mathcal{L}_{\text{NTP}} + \mathcal{L}_{\text{contrastive}}$

4 实验

在本节中，我们在商品卡片、短视频和直播的电商服务进行了大量的离线和在线实验服务。为了进行公平的性能评估，我们采用三个指标来将基线模型和我们的模型变体进行比较：

离线 SID 准确率：准确率指标用于衡量同系列模型变体的离线性能，此处我们展示了三级SID NTP精度下的 Accuracy@1。
模拟 HitRate：为了与不同方法进行公平比较，我们将在线用户请求重放作为模拟环境，以收集真实浏览物品是否被相应模型召回的命中率，例如，浏览物品是否在排名前50/100/500的召回结果中。
在线 A/B 指标：这些指标通过受控的在线实验评估我们系统的实际效果。关键指标包括订单量、商品交易总额（GMV）、点击率（CTR）、转化率（CVR）和毛利率（GPM）。

4.1 离线扩展实验

作为一种生成式推荐范式，我们首先验证了 OneMall 的 scaling 行为，结果如表1和图6所示。具体来说，我们探索了模型从 0.05B 到 1.3B 总参数的 scaling 情况。然而由于在线服务中的计算资源限制，我们将最大激活参数限制为 0.1B，同时通过具有无损失负载均衡的 Sparse MoE 来 scaling 其余参数。从表1中我们可以观察到，随着模型容量的增加，所有指标均有持续提升：（1）SID 准确率：三级 SID 预测准确率（Acc-SID1/2/3）从 0.05B 时的 14.5%/43.9%/61.0% 稳步提升至 1.3B-A0.1B 时的16.2%/51.7%/71.7%，这表明更大的模型能更好地捕捉分层语义结构。（2）HitRate：模拟 HitRate 指标（HR@50/100/500）有显著提升，从32.9%/41.3%/60.5% 提高到 45.6%/57.3%/76.0%，说明召回质量得到了增强。值得注意的是，从密集型 0.1B 到稀疏型 0.5B-A0.1B 的过渡带来了最显著的提升（HR@50提升10%），这表明 MoE 架构在保持推理效率的同时，能有效扩展模型容量。

4.2 模拟实验

我们在所有电商场景中部署了 OneMall 的 0.5B-A0.1B 版本。为了验证我们方法的有效性，我们在回放的在线流量上进行了公平对比，结果如表2所示。所有对比方法使用相同的输入特征，但在建模范式上有所不同：（1）SASRec-0.5B-A0.1B：一种经典的基于 ANN 的召回方法，将用户兴趣压缩为嵌入向量以进行最近邻搜索。（2）TIGER-0.5B-A0.1B：一种 Encoder-Decoder 生成式召回方法，采用预训练的 RQ-VAE 分词器策略。从表2中可以看出，OneMall 在所有场景中始终取得最佳性能：这些结果验证了我们的电商语义分词器设计、Decoder-Only 架构以及强化学习的有效性。

4.3 在线实验

为了验证 OneMall 为电商服务带来的真正业务贡献，我们在商品卡、短视频和直播场景中进行了在线 A/B 实验。我们使用核心电商指标评估模型性能，包括曝光、点击、订单和 GMV，如表3所示。从结果来看，OneMall 在所有场景中都实现了显著的改进：（1）在商品卡，OneMall 曝光 +2.851%、点击 +13.01%、订单 +8.35% 和 GMV +14.71%的，在用户有明确购买意图的商城tab中展示了强大的商业价值。（2）在短视频，点击 +5.76%、订单 +11.65%、GMV +10.33%，表明我们的分词器有效地捕捉了电商短视频的观看体验和商业意图。（3）在直播，OneMall实现了订单 +4.47%和 GMV +4.90%，验证了我们针对直播内容的动态语义ID 生成策略的有效性。总的来说，这些在线结果证实，OneMall 成功弥合了用户兴趣建模和商业转化之间的 gap，为快手的电商平台带来了巨大的业务价值。

4.4 强化学习有效性分析

在本节中，我们深入验证了强化学习在电商务推荐中的有效性。电商的核心业务目标是CTR、CTCVR和EGPM。我们首先按照公式（8）的定义进行分数融合，使用 $\alpha=1.0,\beta=30.0,\gamma=1.0$ 来保持不同目标间量级的一致性。我们抽取2%的训练流量用于强化学习训练，候选生成的 beam size 为 768。此外，我们设置了损失权重比例 $(L_{NTP}+0.5 L_{RL})$ 。我们通过实验发现，过大的强化学习损失权重会降低 SID 准确率，并影响生成候选的有效率；因此，我们通过手工设定的权重来平衡生成效率和质量。从表4中我们可以得出：（1）DPO/GRPO vs Base：在所有候选片段（前10/100/500）中，DPO和GRPO相较于 Base 均实现了持续改进。奖励分(CTR/CTCVR/GPM)也有不同程度的提升，这表明强化学习在生成高质量候选方面的有效性，以及其在推荐中同时优化多个目标的能力。（2）GRPO vs DPO：GRPO在所有候选片段上的表现均优于DPO，在前10的改进尤为显著（例如，相较于DPO，CTR +0.040%，CTCVR +0.012%，GPM +0.228%）。原因可能是GRPO对所有768个采样候选的奖励进行归一化以计算优势分数，使模型能够学习每组内的质量分布。相比之下，DPO仅使用成对的正负样本，提供的全面训练反馈较少。

4.5 组件分析

分词器策略。在我们的早期版本中，我们直接将标准的三层 4096 Res-Kmeans 码本应用于模型训练，但遇到了严重的 code 冲突问题（即一组语义 ID 映射到多个物品）。我们推测这是因为 K-means 的优化目标是最小化到质心的平均簇内距离，而不考虑簇间距离。这会导致簇中心坍缩，从而产生较高的分词器冲突率和不均衡的 code 分布。为解决这一问题，我们在最后一个量化层引入了FSQ（有限标量量化）。FSQ预先固定聚类中心，确保编码的均匀分布。尽管这会牺牲部分语义信息，但能使划分的空间更规则。如表5所示，ResKmeansFSQ 结合了两种方法的优势：它保留了前两层 Res-Kmeans 的语义信息，同时通过 FSQ 确保聚类中心的均匀分布。 辅助对比损失。由于语义 ID 相对粗粒度，缺乏物品具体的细粒度特征，我们在模型中引入了额外的物品侧信息。具体而言，我们将重要的物品属性（如产品类别、价格、店铺信息）输入到物品塔中，并将batch内对比学习作为辅助目标。实验表明，这种辅助损失在 HitRate 上带来了持续提升（HR@50/100/500分别+1.5%/1.7%/1.7%），这证明了融入细粒度物品特征以补充粗粒度语义 ID 表示的有效性。 Query-Former 压缩。为避免长序列带来的较高计算成本，我们引入了 Q-former 进行早期序列压缩。幸运的是，我们发现其性能与长序列版本相当，如表6所示，GFLOPs（每个样本的计算成本）大幅降低，而性能仅略有下降。

5 结论

在本文中，我们提出了 OneMall，这是一个专为电商服务设计的端到端生成式推荐框架。借鉴大模型（LLMs）的成功范式，OneMall 整合了三项关键创新：（1）统一的语义分词器解决方案；（2）纯 Transformer 架构的网络设计；（3）用于蒸馏排序模型知识的强化学习（RL）范式。在快手电商平台上进行的大量实验表明，该框架在商品卡片、短视频和直播场景中均实现了显著改进。我们希望我们的实践经验能为未来将 LLM 技术应用于工业级电商推荐的研究提供启发。未来我们将探索：（1）在 OneMall 中统一召回与排序能力；（2）基于文本的推理能力；（3）用于多服务数据扩展的共享骨干网络。