Farewell to Item IDs标题：告别物品 ID：通过语义 Token 释放大型排序模型的扩展潜力英文标题

标题：告别物品 ID：通过语义 Token 释放大型排序模型的扩展潜力
英文标题：Farewell to Item IDs: Unlocking the Scaling Potential of Large Ranking Models via Semantic Tokens
单位：字节跳动

摘要

近年来，大型排序模型的扩展研究为推荐系统和搜索引擎带来了显著性能提升。然而，大多数大规模排序系统依赖物品 ID，即将每个物品视为独立的类别符号并映射到学习到的嵌入向量。随着物品快速新增和淘汰，这些嵌入向量难以训练和维护，这种不稳定性阻碍了神经网络参数的有效学习，限制了排序模型的可扩展性。本文研究表明，语义 Token 相比物品 ID 具有更强的扩展潜力。我们提出的框架 TRM（基于 Token 的推荐模型）改进了 Token 生成和应用流程，在稀疏存储减少 33% 的同时，实现了 0.85% 的 AUC 提升。大量实验进一步证明，当模型容量扩展时，TRM 能够持续优于当前最优模型。最终，TRM 已成功部署在大规模个性化搜索引擎中，通过 A/B 测试实现了用户活跃天数提升 0.26%、查询修改率下降 0.75% 的业务收益。

1 引言

大型排序模型（LRM）是现代推荐系统和搜索引擎的核心支柱，在高效信息分发中发挥着关键作用。

近年来，扩大大型排序模型的参数规模已成为排序模型发展的重要方向。受大语言模型（LLM）缩放定律成功的启发，近期研究聚焦于设计最全面的模型架构以支持稠密参数扩展。然而，物品 ID 这类类别特征的动态性和不稳定性阻碍了高效的知识共享：新引入的 ID 常面临冷启动问题，而淘汰的旧 ID 则会丢弃所有先前学习到的知识。因此，基于 ID 的特征分布快速剧烈变化，阻碍了稠密参数的学习，尤其是在大规模排序系统中，最终导致稠密参数扩展的效果和能力受损。

与此相反，我们提出通过语义 Token 替代物品 ID 来实现稠密参数的扩展。我们的核心发现之一是，语义 Token 构建了一个结构化的封闭集合，在训练过程中相对更稳定和平滑。如图 1 所示，我们使用范数方差来衡量 ID 嵌入和 Token 嵌入的分布变化，显然，随着参数规模扩大，语义 Token 在训练过程中展现出更稳定的分布。在附录 A.1 中，我们基于著名的缩放定律 $L \propto N^{-\beta}$ 和缩放定律的幂次分析，对语义 Token 与扩展性能之间的关联进行了理论分析。

与我们最初的预期相反，实验表明，在现有排序模型中简单地用当前语义 Token 替代物品 ID 会立即导致性能下降，尽管这种性能退化会随着稠密参数的增加而逐渐减弱。针对这一现象，我们提出三个核心见解：首先，当前的语义 Token 通常融合了物品的多模态信息（如图像和文本等）进行残差聚类，却忽略了用户行为领域 —— 该领域包含与视觉 / 语言 / 音频领域截然不同的结构化信息；其次，实验表明，现有语义 Token 由于粗粒度聚类，在获得更好泛化性能的同时牺牲了记忆能力，导致排序模型无法捕捉细粒度的组合知识，进而使高频出现的旧物品性能下降；最后，当前方法直接将物品的语义 Token 组合作为输入特征，忽略了 Token 序列内部的结构化信息。

为解决上述问题，我们提出一种新颖的基于 Token 的排序模型扩展框架 TRM。具体而言，我们开发了一种协同过滤方法，将用户行为信息整合到原始的视觉 - 语言嵌入模型中，使语义 Token 能够在多模态和个性化领域同时聚类；为解决记忆能力问题，我们提出独立学习每个物品的组合知识，从而更好地平衡语义 Token 的泛化性和记忆性；最后，我们设计了一种新的训练框架，联合优化判别式目标和生成式目标，该框架不仅利用了判别式预测的准确性，还充分挖掘了 Token 序列内部的结构化信息。

在实验中，我们在依赖大规模排序模型提供在线服务的个性化搜索引擎中评估 TRM。将 TRM 应用于 RankMixer 等当前最优排序模型时，我们的方法取得了显著的性能提升和资源节约。基于真实用户日志的离线实验表明，TRM 实现了 0.65% 的 AUC 提升和 33% 的稀疏存储减少；此外，通过扩大排序模型的稠密部分，TRM 持续优于基于 ID 和其他基于 Token 的模型，相对 QAUC 增益从 0.54% 提升至 0.85%。

本文的主要贡献总结如下：

通过理论和实验分析，证明了基于 Token 的模型相比基于 ID 的模型具有更优的扩展性能；
开发了基于 Token 的扩展框架 TRM，有效解决了传统语义 Token 存在的用户行为错位、记忆能力牺牲和结构化信息缺失问题，实现了更优的扩展性能；
TRM 已成功部署在大规模搜索引擎中，实现了 33% 的稀疏存储减少、0.26% 的用户活跃天数提升和 0.75% 的查询修改率下降。

2 相关工作

基于 ID 的大型排序模型与嵌入瓶颈

大规模排序模型传统上由稀疏类别特征（如物品 ID）主导，每个物品被映射到大型表格中的可学习嵌入向量，例如 DLRM 风格的架构。在这种范式下，新 ID 不断出现，旧 ID 逐渐淘汰，这种特征漂移问题使长期知识积累变得复杂，单纯通过扩大嵌入表格进行扩展的效率低下。

语义 ID 与离散物品 Token 化

为缓解原始 ID 或哈希 ID 的不稳定性和泛化性差的问题，越来越多的研究探索语义 ID：通过向量量化从内容嵌入中提取的紧凑离散编码。Singh 等人（2023）表明，语义 ID 可以提升工业级排序模型中新物品和长尾物品的泛化性，并提出子片段 Token 化（包括 SentencePiece 风格的分割）以辅助适配。在广告排序中，Zhao 等人（2023）进一步分析了 ID 漂移和嵌入不稳定性问题，Zheng 等人（2025b）提出基于前缀的参数化方法以创建具有语义意义的冲突。近期的一篇综合综述将推荐系统中的向量量化方法分为面向效率和面向质量的方法，强调了它们在连接内容信号和协同信号中的作用。

排序模型的缩放定律

一项广泛的实证研究调查了不同大型推荐骨干网络的扩展现象，Yan 等人（2025）提供了在生产环境中释放扩展特性的实用路径。近期研究已开始揭示排序和推荐模型中的类似行为。Fang 等人（2024）提供了证据表明，在使用连续替代指标评估时，稠密检索中存在幂律扩展，为计算 - 数据权衡分析提供了基础。在工业规模下，生成式推荐器进一步证实了这些趋势，OneRec 报告称在训练浮点运算量大幅增加的情况下性能持续提升，而 OneSearch 则探索了基于量化物品编码的电子商务搜索统一端到端生成方法。

3 方法

我们提出一种统一的基于 Token 化的排序框架，该框架将物品建模、表示离散化和排序优化重新整合为单一流程。如图 2 所示，首先，我们通过联合利用多模态内容信号和大规模用户交互数据学习稠密物品表示，生成同时捕捉语义属性和行为相关性的协同过滤感知嵌入；其次，我们采用混合 Token 化策略从这些嵌入中构建结构化语义 Token，该策略结合粗粒度层次聚类和细粒度子词组合，平衡泛化性和记忆性；最后，我们重新设计排序模型，使其完全基于语义 Token 而非物品 ID 运行，该模型整合了判别式排序目标和辅助生成式建模，以更好地捕捉层次化 Token 依赖关系和用户 - 物品交互。

3.1 协同感知多模态物品表示

为学习兼具语义基础和行为对齐的物品表示，我们采用两阶段表示对齐策略。第一阶段引入短视频领域知识，第二阶段利用用户行为的协同信号对齐表示。在第一阶段，我们执行领域内多模态字幕生成，使模型适配搜索系统的短视频领域。每个物品由视觉输入和文本元数据（如标题、语音转文字（ASR）、图像转文字（OCR）和描述）表示，这些输入被送入多模态大语言模型（MLLM），该模型以自回归方式训练生成视频字幕。训练数据来自真实曝光日志，反映了搜索系统中短视频的视觉风格、内容多样性和语义密度。该阶段向模型注入领域特定知识，提升其在目标场景中联合理解视觉和文本信息的能力。我们使用字幕 Token 的标准下一个 Token 预测损失优化 MLLM：

\mathcal{L}_{cap }=-\mathbb{E}_{(V, T)} \sum_{k=1}^{|T|} log P\left(t_{k} | t_{<k}, V ; \theta\right) \tag{1}

其中 $V$ 表示视觉输入， $T=t_{1}, ..., t_{|T|}$ 是目标字幕， $\theta$ 代表模型参数。

在第二阶段，我们通过将嵌入与协同信号显式对齐，使 MLLM 适配表示学习。对于每个输入样本，我们从 MLLM 的最后一层提取 Token 表示，并应用均值池化得到单个稠密表示：

h=\frac{1}{N} \sum_{i=1}^{N} z_{i} \tag{2}

其中 $\{z_{i}\}_{i=1}^{N}$ 是最后一层的 Token 嵌入。为使多模态表示与用户行为对齐，我们从交互日志中构建两种类型的训练对：第一种是来自用户正向反馈的 query-item 对；第二种是具有高协同相似度（通过高频共同点击确定）的 item-item 对。我们对两种 pair 类型应用对比学习，以对齐协同相似的 query 和 item 的表示，同时分离不相关样本。对比对齐损失定义为：

\mathcal{L}_{align }=-\mathbb{E}_{(a, b) \in \mathcal{P}} log \frac{exp \left(sim\left(h_{a}, h_{b}\right) / \tau\right)}{\sum _{b' \in \mathcal{B}} exp \left(sim\left(h_{a}, h_{b'}\right) / \tau\right)} \tag{3}

其中 $(a, b)$ 表示正向查询 - 物品对或物品 - 物品对， $\mathcal{B}$ 是批次内样本集， $\tau$ 是温度超参数， $sim(., .)$ 表示余弦相似度。协同感知表示学习的最终训练目标为：

\mathcal{L}_{rep }=\mathcal{L}_{cap }+\lambda_{align } \mathcal{L}_{align } \tag{4}

其中 $\lambda$ 控制协同对齐的强度。通过这种两阶段优化，学习到的表示编码了领域内多模态语义和协同结构，为语义 Token 化奠定了坚实基础。

3.2 平衡泛化与记忆的混合 Token 化

给定协同感知物品表示，我们使用基于 RQ-Kmeans 的残差量化获取离散语义 Token。这些 Token 保留了物品间共享的语义结构，具有很强的泛化能力。如图 3 所示，用此类语义 Token 替代物品 ID 可提升新出现或低曝光物品的排序性能。

然而，我们的实验结果表明，一系列基于 Token 的模型（如 OneRec、Tiger 和 Semid）中使用的基于 RQ-Kmeans/RQ-VAE 的 Token 化方法，在整体排序性能上无法优于基于 ID 的基线。图 3 显示，随着物品曝光频率的增加，模型性能持续下降，当物品变旧时甚至会产生负面影响。这表明在大规模推荐场景中，语义 Token 无法保留物品特定知识，因此基于 Token 的模型在实际部署中通常需要额外的基于 ID 的奖励系统。

我们发现这一现象的根本原因是残差量化采用粗粒度聚类方式，导致物品描述的语义不足。本质上，残差量化将物品投影到 Token 序列 $s=[s_{1}, s_{2}, \cdots, s_{n}]$ ，其中每个 Token $s_{i}$ 可以表示特定的语义含义，但语义含义的简单聚合（求和 / 拼接等）无法替代这些含义的组合。例如，若存在两个分别表示 “蛋糕” 和 “蜡烛” 语义的 Token，它们的组合可能隐含 “生日” 的含义，而 “蛋糕” 或 “蜡烛” 单个语义 Token 均无法有效学习到这种含义。因此，语义 Token 无法学习某个物品的组合知识，导致推荐中的记忆能力不佳。

为解决这一问题，我们提出分配独立的可学习 Token 来学习语义 Token 的组合知识。如图 2 所示，我们选择高频 Token 组合（即高频 k-grams）生成新的 Token ID，用于保留细粒度和组合性的物品知识。考虑到语义 Token 序列中的结构化信息，我们将每个 Token 视为描述对应物品的子词，并使用字节对编码（BPE）算法找到最具代表性的子词组合。

我们将原始语义 Token 称为 “泛化 Token”（gen-tokens），用于粗粒度知识共享；将 BPE 生成的组合 Token 称为 “记忆 Token”（mem-tokens），用于细粒度组合知识保留。在实际应用中，泛化 Token 和记忆 Token 在哈希系统下通过不同的嵌入模块处理，生成的嵌入作为模型输入。为进一步平衡泛化性和记忆性，我们实现了 Wide&Deep 网络生成混合 Token，其中深层网络输入为泛化 Token，浅层网络输入为记忆 Token。我们还在深层网络上应用随机丢弃（dropout）以避免过拟合。如图 3 所示，混合 Token 提升了模型的细粒度知识保留能力，因此随着曝光频率的增加，相比物品 ID 持续展现出更优的性能。

3.3 判别式与生成式目标的联合优化

现有研究通常在判别式预测或生成式检索中使用语义 Token，尽管两种范式在大规模推荐系统中均表现出良好性能，但它们未能充分挖掘语义 Token 的潜力。具体而言，判别式目标将每个语义 Token $s_{i}$ 同等对待，忽略了语义 Token 序列的结构化信息；而生成式目标在用户目标整合方面存在局限性，通常需要判别式模型作为辅助奖励模型。为充分挖掘语义 Token 的潜力，我们提出直接联合优化判别式目标和生成式目标。如图 2 所示，在我们的搜索系统中，个性化排序模型的输入集包括三部分：（1）查询特征 $X_{Q}$ ；（2）物品特征 $X_{I}$ ，包括多模态信息和我们的混合 Token；（3）用户特征 $X_{U}$ ，包括用户交互历史。对于判别式目标，所有 $X_{Q}$ 、 $X_{I}$ 和 $X_{U}$ 均用于预测用户对 $X_{I}$ 对应实际物品的行为（点击率、点赞、真实播放等）。我们使用二分类交叉熵（BCE）损失优化判别式目标：

\mathcal{L}_{d}=\mathbb{E}_{\left(X_{Q, U, I}^{i}, Y^{i}\right)} BCE\left(Y^{i}, P\left(\hat{Y} | X_{Q, U, I}^{i}, \theta_{d}\right)\right) \tag{5}

其中 $\theta_{d}$ 是判别式预测的可学习稠密参数， $Y^{i} \in\{0,1\}$ 是用户对物品的实际行为标签。对于生成式目标，我们使用 $X_{Q}$ 和 $X_{U}$ 作为输入，依次生成用户正向交互物品的语义 Token。采用下一个 Token 预测（NTP）损失优化生成式目标：

\mathcal{L}_{g}=\mathbb{E}_{\left(X_{Q, U}^{i}, Y^{i}\right)}\left[Y^{i}=1\right] \cdot \sum_{j=1}^{L} CE\left(s_{j}^{i}, P\left(\hat{s}_{j} | X_{Q, U}^{i}, s_{<j}^{i}, \theta_{g}\right)\right) \tag{6}

其中 $s_{j}^{i}$ 是物品的第 $j$ 层语义 Token（泛化 Token）， $L$ 是物品的泛化 Token 长度， $\theta_{g}$ 是生成式优化的可学习稠密参数。在训练中， $X_{Q}$ 和 $X_{U}$ 分别被投影为 $N_{q}$ 和 $N_{u}$ 个 Token（称为上下文 Token）。在因果预测过程中，我们使用半因果掩码，其中上下文 Token 相互可见，而后续的起始 Token 和语义 Token 遵循因果掩码。TRM 的最终学习目标如下：

\mathcal{L}=\mathcal{L}_{d}+\lambda \cdot \mathcal{L}_{g} \tag{7}

其中 $\lambda$ 是平衡判别式损失和生成式损失的超参数。

4 实验

4.1 实验设置

数据集与环境

离线实验使用大规模视频搜索排序数据集，该数据集从三个方面描述搜索引擎：（1）物品：每个物品包含视频的帧、标题、音频和字幕，已移除个人身份信息；（2）查询和用户：包含用户查询的文本内容和用户历史交互；（3）交互：对于每个查询，数据集记录用户是否对每个物品产生正向交互。

对比模型

我们将 TRM 与其他当前最优排序模型进行了充分对比，基于物品 ID 的方法包括 DCN、DHEN、WuKong 和 RankMixer；基于语义 Token 的方法包括我们复现的 TIGER、OneRec 和 SemID 中提出的语义 Token。所有上述语义 Token 均作为 RankMixer 的输入进行训练，且所有基于语义 Token 的方法的网络超参数保持一致。我们还训练了一个 700 万稠密参数的基于 MLP 的排序基线用于对比。

TRM 的详细设置

在协同对齐中，我们使用 200 万物品 - 物品对及其多模态信息；对于混合 Token 化，泛化 Token 通过 RQ-Kmeans 生成，包含 5 层，每个码本有 4096 个嵌入，总共 20480 个 Token；BPE 算法最多生成 $2 ×10^{7}$ 个 Token，与基于物品 ID 的方法中使用的 $1.3 ×10^{10}$ 规模的物品 ID 集相比可忽略不计；在 TRM 的联合训练中， $X_{Q}$ 和 $X_{U}$ 均被投影为 2 个 Token（即 $N_{q}=N_{u}=2$ ），我们使用 4 层 Transformer 网络进行因果预测，设置 $\lambda=0.1$ 以平衡联合训练。

评估指标

我们使用 AUC（曲线下面积）和 QAUC（查询级 AUC）评估不同模型的性能，使用稠密 / 稀疏参数量和浮点运算量（FLOPs）评估模型效率。离线实验主要关注点击率（CTR）和真实播放率（Real-Play），其中真实播放率定义为用户在查询下观看物品超过 10 秒时为 1。

4.2 主要结果

如表 1 所示，我们对比了 TRM 与其他当前最优方法（包括基于物品 ID 和基于语义 Token 的模型）的性能和效率。

表 1：主要结果（除 TRM - 纯 Transformer 外，基于 Token 的方法均采用相同的 RankMixer 架构训练；对于 Tiger-token、OneRec-token 和 Semid，我们用它们的语义 Token 替换 RankMixer 中的物品 ID）

从表中可以看出，我们提出的 TRM 框架相比基于 ID 和基于 Token 的当前最优方法，均展现出更优的性能和效率。TRM-RankMixer 变体在所有指标上均取得了最高的性能增益，点击率 AUC 和 QAUC 分别提升 0.65% 和 0.54%，真实播放率 AUC 和 QAUC 分别提升 0.85% 和 0.70%。我们方法的核心优势在于参数效率：TRM 将稀疏参数从基于 ID 方法的 7.52 万亿减少到 5.07 万亿（减少 32.6%），同时提升了模型性能。这种稀疏参数的显著减少解决了传统基于 ID 的推荐模型固有的可扩展性挑战。

除传统特征交叉架构外，我们还尝试将 TRM 融入排序模型中的纯 Transformer 训练（仅使用 Transformer 网络，无任何特征交叉模块）。可以看出，TRM - 纯 Transformer 表现出具有竞争力的性能（点击率 AUC+0.61%，真实播放率 AUC+0.81%），同时保持最佳的计算效率（仅 12.17 万亿浮点运算量），这意味着在大规模推荐系统中可能存在全 Token 架构的潜力。

此外，TRM 模型在所有评估指标上均持续优于现有的基于 Token 的方法（TIGER-token、OneRec-token、Meta-token），验证了我们语义 Token 架构的有效性。结果表明，TRM 成功弥合了性能与效率之间的差距，为移除排序模型中低效的 ID 提供了实用解决方案。

4.3 缩放定律对比

如图 4 所示，当增加稠密网络容量时，TRM-RankMixer 在参数量和浮点运算量维度均带来持续增益并保持领先曲线。在我们测试的最大规模下，TRM-RankMixer 达到 + 0.75% 的 QAUC 增益（18.88 亿参数），而 SEMID 和基于 ID 的 RankMixer 分别达到 + 0.68%（18.43 亿参数）和 + 0.60%（17.68 亿参数）。增益差距的扩大表明，TRM 能够更有效地利用额外的稠密容量，这与改进的语义参数共享和减少对稀疏 ID 记忆的依赖一致。

相比之下，基于 ID 的强基线表现出明显的收益递减：即使扩展到约 19 亿稠密参数，WuKong 的增益也饱和在 + 0.55% 左右，且计算量显著更高（高达 124.64 万亿浮点运算量）；DHEN 的饱和更早，在 11.7 亿稠密参数（49.75 万亿浮点运算量）时仅达到 + 0.42% 的增益。这种瓶颈行为与以下直觉一致：纯 ID 中心建模受限于长尾稀疏性和 ID 流转，仅通过扩大稠密网络无法完全弥补不稳定 / 低效的稀疏记忆。

总体而言，图 4 表明，基于语义 Token 的排序器不仅提升了绝对 QAUC，还在参数和计算预算下提供了更优的缩放定律，在所有对比方法中，TRM 持续实现了最佳的质量 - 效率边界。

4.4 消融实验

TRM 不同策略的效果

如表 2 所示，我们对 TRM 框架中提出的不同策略进行了消融实验，可以看出三种策略均显著提升了 TRM 的性能。值得注意的是，混合 Token 化带来的 AUC 增益最大，表明平衡语义 Token 的泛化性和记忆性的必要性。

泛化性与记忆性的权衡

为研究 TRM 中记忆 Token 的影响，我们对比了不同记忆 Token 数量下相比仅使用泛化 Token 的 AUC 增益。如图 5 所示，记忆 Token 的引入提升了所有生命周期物品的 AUC 预测性能。从结果中我们可以得出两个结论：首先，增加记忆 Token 数量可以持续带来更多 AUC 增益，但当 Token 数量增加到 2000 万时，额外增益趋于饱和。例如，对于存在超过 7 天的物品，记忆 Token 数量从 500 万增加到 1000 万时，AUC 额外提升 0.04%；而从 1500 万增加到 2000 万时，仅额外提升 0.02%。其次，记忆 Token 对记忆性的贡献大于泛化性：新物品（即 1 天内产生的物品）的 AUC 提升 0.06%，而旧物品（即存在超过 7 天的物品）的提升达到 0.11%。这一现象验证了我们使用记忆 Token 提升记忆能力的见解。

最后，我们将我们在记忆增强中使用的 BPE 策略与 SEMID 中使用的前缀 n-gram 进行了对比。如表 5 所示，由于 BPE 的动态合并机制能够捕捉组合表示，相比 2-gram 和前缀 n-gram，BPE 展现出最佳的 AUC/QAUC 增益。

下一个 Token 预测损失的效果

由于生成式目标的优化需要额外的稠密参数和浮点运算量，我们通过消融下一个 Token 预测（NTP）损失来验证 QAUC 增益的来源。如表 3 所示，相比完整的 TRM 模型，引入 NTP 损失仅带来 1.7% 的稠密参数增加和 0.5% 的额外批次浮点运算量；但移除 NTP 损失会导致 QAUC 从 + 0.05% 大幅下降至 + 0.01%，表明改进来自生成式目标的优化，而非额外 Transformer 架构的参数 / 浮点运算量增加。生成式目标能够挖掘语义 Token 序列内部的结构化信息。此处我们将 NTP 损失与位置编码（PE）进行了对比，位置编码也可以手动向语义 Token 注入序列信息。如表 6 所示，位置编码的引入仅为语义 Token 带来有限的性能提升；当将 NTP 损失与位置编码结合时，位置编码的改进甚至消失。这一结果表明，NTP 损失不仅带来更充分的结构化信息，还可以完全替代位置编码的作用。

4.5 线上性能

为验证 TRM 框架在真实用户交互场景中的性能，我们通过在搜索引擎中应用该排序模型进行了线上实验。我们报告以下关键性能指标：搜索活跃天数指每个用户积极使用搜索引擎的平均天数；查询修改率指用户产生负向交互的查询页面比例；严格点击率、点赞率和评论率指用户在展示的物品中点击、点赞和评论的查询页面比例。

之前的基线是一个 700 万参数的 DLRM 排序模型，此处我们用 TRM-Rankmixer-3.52 亿参数模型替代基线模型，该模型在点击率上实现了 0.54% 的 QAUC 增益。从表 4 可以看出，TRM 在所有指标上均展现出显著提升。值得注意的是，TRM 提升了所有活跃度用户的性能，表明 TRM 在改善用户线上体验方面具有普适性。我们进一步通过双盲设置，邀请 15 名真实用户对 462 个随机抽样的查询页面进行并排对比，开展用户评价。如表 7 所示，在真实用户反馈中，TRM 在物品质量、查询 - 物品相关性和内容满意度方面均有显著提升。

5 结论

本文提出了 TRM，一种基于语义 Token 的大型排序模型扩展框架。我们通过充分的理论和实验分析，证明了基于语义 Token 的模型相比基于物品 ID 的模型具有更优的扩展能力。通过整合提出的策略（即协同对齐、混合 Token 化和联合优化），我们在排序系统中实现了显著更优的性能。我们在大规模搜索系统中的线上测试进一步验证了 TRM 的有效性，并揭示了使用语义 Token 扩展排序模型的广阔前景。

附录

A.1 基于 Token 和基于 ID 的缩放定律分析

A.1.1 网络塔的实证缩放定律

当扩展神经塔（保持表示和训练协议固定）时，我们观察到标准的幂律行为：

\mathcal{L}(N) \approx \mathcal{L}_{\infty}+A N^{-\beta} \tag{8}

其中 $N$ 是塔的参数量， $\mathcal{L}_{\infty}$ 是不可约误差水平（下限）， $\beta>0$ 是缩放指数。实证上，基于 ID 和基于 Token 的模型在非平凡范围内的对数 - 对数图上均表现出近似线性趋势，且 Token 化使塔扩展的拟合指数更大（斜率更陡）（见 4.3 节）。

A.1.2 β 的平滑度 - 维度解释

我们通过贝叶斯最优点击率函数在语义潜在空间上的平滑度来解释 $\beta$ 。设 $Z \in \mathcal{Z} \subset \mathbb{R}^{{d}_*}$ 为物品的连续语义表示， $(U, Q)$ 为用户 / 查询上下文。定义贝叶斯最优点击率概率及其对数几率：

p^{*}(u, q, z)=\mathbb{P}(Y=1 | U=u, Q=q, Z=z), \eta^{*}(u, q, z)=log \frac{p^{*}(u, q, z)}{1-p^{*}(u, q, z)}

假设对于固定的 $(u, q)$ ， $\eta^{*}$ 在 $z$ 上是 s - 赫尔德连续的：

|\eta^{*}\left(u, q, z_{1}\right)-\eta^{*}\left(u, q, z_{2}\right)| \leq L_{\eta}\left| z_{1}-z_{2}\right| ^{s}, \forall z_{1}, z_{2} \in \mathcal{Z} \tag{9}

其中 $d_{eff }$ 表示语义领域的有效维度。

赫尔德 / 索伯列夫类上深度网络的逼近理论表明，可实现的逼近误差衰减由平滑度 $s$ 和有效维度 $d_{eff }$ 的相互作用控制（忽略对数因子）。一种便于缩放的参数化方式为：

\beta \approx \beta\left(s, d_{eff}\right):=\frac{2 s}{2 s+d_{eff}} \tag{10}

因此，更大的平滑度 $s$ 和更小的有效维度 $d_{eff }$ 会导致更大的指数 $\beta$ 。

A.1.3 观测缩放的分解： $(s, d_{eff})$ 与量化

对于基于 Token 的模型，塔在量化语义变量 $\tilde{Z}=Q(Z)$ （RQ-VAE/RQ-kmeans）上运行。在塔扩展机制下，我们可以写成：

\mathcal{L}_{tok }(N) \approx \underbrace{\mathcal{L}_{\infty}}_{\text{贝叶斯下限（理想Z）}}+\underbrace{\Delta_{quantRQ,VAE }}_{\text{量化诱导的下限偏移}}+\underbrace{A N^{-\beta_{tok}}}_{\text{塔扩展项}}, \beta_{tok} \approx \beta\left(s_{tok}, d_{eff,tok}\right) \tag{11}

其中 $\beta$ 由表示诱导的平滑度 - 维度对 $(s, d_{eff})$ 控制，而量化对下限产生与 $N$ 无关的偏移。

A.1.4 RQ-VAE 量化主要偏移下限

点击率损失在对数几率空间中是利普希茨连续的。将二分类交叉熵表示为对数几率形式：

\ell (y,\eta )=log (1+e^{\eta })-y\eta , y\in { 0,1}

由于 $\frac{\partial \ell}{\partial \eta}=\sigma(\eta)-y \in[-1,1]$ ，我们有：

\left|\ell(y, \eta)-\ell\left(y, \eta'\right)\right| \leq\left|\eta-\eta'\right|, \forall \eta, \eta' \in \mathbb{R} \tag{12}

量化失真和下限偏移：设 $\tilde{Z}=Q(Z)$ ，定义 s 阶矩失真：

\delta_{s}:=\mathbb{E}| Z-\tilde{Z}| ^{s} \tag{13}

定义具有完整语义信息和量化信息的贝叶斯风险：

\mathcal{L}_{\infty}:=\inf _{h} \mathbb{E}[\ell(Y, h(U, Q, Z))] \tag{14}

\mathcal{L}_{\infty, tok }:=\inf _{h} \mathbb{E}[\ell(Y, h(U, Q, \tilde{Z}))] \tag{15}

其中 $\Delta_{quantRQ\_VAE}:=\mathcal{L}_{\infty, tok }-\mathcal{L}_{\infty} \geq0$ 。

命题 A.1（点击率损失下的量化下限偏移） ：假设贝叶斯对数几率满足赫尔德条件（9），则：

0 \leq \Delta_{quantRQ\_VAE } \leq L_{\eta } \mathbb{E}| Z-\tilde{Z}| ^{s}= L_{\eta } \delta_{s} \tag{16}

在扩展机制下，量化不会改变塔指数。设 $\mathcal{L}_{tok }(N)$ 为在 $(U, Q, \tilde{Z})$ 上运行的 $N$ 参数塔可实现的最佳总体损失：

\mathcal{L}_{tok }(N):=\inf _{\theta: \# \theta \leq N} \mathbb{E}\left[\ell\left(Y, g_{\theta}(U, Q, \tilde{Z})\right)\right]

则：

\mathcal{L}_{tok }(N)-\mathcal{L}_{\infty}=\underbrace{\left(\mathcal{L}_{tok }(N)-\mathcal{L}_{\infty, tok }\right)}_{\text{塔扩展项}}+\underbrace{\Delta_{quantRQ\_VAE }}_{\text{与N无关}} \tag{17}

因此，如果在 $N$ 的某个范围内 $\mathcal{L}_{tok }(N)-\mathcal{L}_{\infty, tok } \approx A N^{-\beta_{tok}}$ ，则 $\Delta_{quantRQ\_VAE}$ 仅改变该机制下的渐近下限和 $\beta_{tok}$ 。

何时可以忽略量化？ 只要在整个实际扩展范围内， $\Delta_{quantRQ\_VAE}$ 被塔的 $A N^{-\beta_{tok}}$ 主导，量化就是可忽略的。一个简单的充分条件是小 $\delta_{s}$ （ $0<s \leq2$ ），令 $D:=\mathbb{E}|Z-\tilde{Z}|^{2}$ ，则：

\delta_{s}=\mathbb{E}| Z-\tilde{Z}| ^{s} \leq\left(\mathbb{E}| Z-\tilde{Z}| ^{2}\right)^{s / 2}=D^{s / 2} \tag{18}

A.1.5 为什么 Token 化可以增加观测指数

基于 Token 的大型排序模型促进语义参数共享：许多物品重用从大量头部流量中训练的紧凑多模态 Token 集，改善了向尾部 / 新物品的迁移。实证上，Token 表示集中在低复杂度子空间，并表现出更快的谱衰减，这与更小的有效维度 $d_{eff,tok }$ 和更稳定的语义（在表示诱导度量中有效更大的 $s_{tok}$ ）一致。相比之下，长尾频率和流转下的开放集 ID 嵌入引入了表示噪声和弱共享，这增加了有效复杂度（更大的 $d_{eff,id }$ ）并降低了塔所看到的有效平滑度。结合（10），这产生：

\beta _{tok}\approx \beta (s_{tok},d_{eff,tok}) > \beta _{id}\approx \beta (s_{id},d_{eff,id})

这解释了为什么基于 Token 的塔扩展曲线在实证上比基于 ID 的基线更陡（见 4.3 节）。

Farewell to Item IDs

摘要