生成式AI推荐系统全景解析：架构创新与落地实践一、技术背景 1.1 生成式AI基础架构生成式推荐系统的核心是利用生成式

一、技术背景

1.1 生成式AI基础架构

生成式推荐系统的核心是利用生成式模型（尤其是大语言模型）来生成个性化的推荐内容。其基础架构通常包含以下关键组件：

生成式核心模型：
- 核心：大语言模型。
- 角色：作为系统的“大脑”，负责理解复杂语义、进行逻辑推理和生成内容。
- 输入：不再是简单特征向量，而是经过语义化的用户行为序列、物品描述文本、用户自然语言查询等。
- 输出：可以是推荐的物品列表、个性化的推荐理由、甚至是虚拟的、为新用户定制的“理想物品”描述。
语义理解与对齐模块：
- 功能：将传统ID类特征（如用户ID、物品ID）和结构化数据“翻译”成模型能够深度理解的语义空间表示
- 关键技术：
- - 物品语义化：为每个物品生成一个语义ID序列，将物品的隐式特征离散化。
  - 用户序列语义化：将用户的历史行为（一系列物品ID）映射为对应的语义ID序列，形成一个可被模型解读的“用户故事”。
工具调用与行动引擎：
- 功能：赋予生成式模型“动手能力”。模型做出决策后，通过该引擎调用外部工具和API执行具体任务。
- 可调用工具：传统召回服务、排序服务、特征数据库、搜索引擎、知识图谱等。
记忆与状态管理：
- 功能：存储和管理多轮对话历史、用户会话状态及长期偏好，确保推荐过程的连贯性和个性化。

1.2 与传统推荐算法的对比分析

维度	传统推荐算法	生成式AI推荐
核心范式	判别式：从已有物品中“筛选”出最可能喜欢的。	生成式：可“创造”或“推理”出最适合的推荐，甚至包括新组合。
处理的数据	主要以user特征和item特征为主。	主要处理自然语言、语义ID序列等，对非结构化数据理解更深。
交互方式	被动、静态。用户通过点击等隐式反馈交互。	主动、动态、对话式。用户可通过自然语言直接表达和 refining 需求。
可解释性	通常为“黑盒”，或依赖事后归因（如SHAP）。	原生可解释。可通过生成推荐理由、展示推理过程来提升透明度。
冷启动问题	较严重，依赖用户/物品的初始交互数据。	表现更好。利用LLM的先天知识和对内容语义的理解，能有效处理新物品和新用户。
多样性 & 惊喜度	容易陷入“信息茧房”，过度推荐相似内容。	更强。能通过指令控制或模型本身的创造性，发现跨品类的、令人惊喜的关联。
系统架构	相对固定、分阶段（召回、排序、重排）的流水线。	更灵活，以LLM为中央控制器，动态规划和执行推荐步骤。

1.3 关键技术突破点

Next Token预测用于推荐：
- 将推荐问题重塑为序列生成任务。把用户行为序列看作一段“文本”，预测下一个“词”（即下一个物品）。这使得LLM的强大序列建模能力得以直接应用于推荐。
语义索引与向量化召回：
- 通过技术如RQ-VAE，将高维的、连续的物品embedding离散化为一个短的语义ID序列。这极大地提升了检索效率，并让LLM能够直接理解和处理物品。
思维链与显式推理：
- 模型在生成最终推荐前，先在内部进行多步推理。例如，快手的Think-Ahead架构让模型先思考用户可能的动机，再基于此生成推荐，使过程更可控、可信。
对齐技术：
- 使用如DPO等算法，直接基于人类偏好（如“点击优于曝光”）对推荐模型进行微调，使其输出更符合商业目标和用户真实喜好，而不是仅仅拟合训练数据。
推荐智能体：
- 将LLM与工具调用能力结合，构建推荐领域的智能体。它可以自主规划推荐策略（如先召回再排序，或直接搜索），调用工具执行，并与人进行多轮交互。

二、核心技术分析

核心环节：生成式推荐系统流程

生成式推荐系统将推荐问题视为一个序列生成任务，其核心流程可分为以下四个基本环节：

1. 物料表示

目标：将系统中的每个物品（Item）转化为一个机器可生成的、简短的标识符序列。

方法	核心思想	优点	缺点
数字ID	将物品ID（如1001）分割成多个数字Token序列。	实现简单，资源消耗低。顺序索引可捕捉共现关系。	缺乏语义信息，难以利用大模型的世界知识。冷启动问题严重。
文本元数据	直接使用物品的标题、描述等文本作为标识符。	富含语义，能充分利用大模型的知识。可解释性强。	文本过长导致生成计算成本高、匹配困难。存在语义模糊性（如“苹果”指水果还是公司？）。
语义ID	通过模型（如RQ-VAE）将物品的语义向量离散化成一个短的Token序列。	兼顾语义与区分度：相似物品有相似ID前缀。长度可控，生成效率高。解决了数字ID和纯文本的多数缺点。	构建流程更复杂，需要额外的模型训练。

语义ID是目前最主流和前景最好的方法，它旨在为每个物品创建一个“语义指纹”，在保留语义信息的同时，控制了生成难度。

2. 模型输入表示

目标：构建一个能充分描述推荐任务的提示词（Prompt），作为生成模型的输入。输入通常包含三部分：

任务描述：
- 通过自然语言定义任务，例如：“根据该用户的历史行为，预测他下一个可能点击的物品是：”
- 作用：引导大模型理解并执行推荐任务。
用户信息：
- 历史交互数据：将用户过去点击、购买过的物品序列，用上述的物料表示方法（数字ID、文本或语义ID）拼接起来。
- 用户画像：融入用户的性别、年龄等静态特征，格式如：“用户描述：女性，25-34岁。”
上下文及外部信息：
- 加入时间、地点、场景等上下文信息。
- 引入知识图谱等外部知识，以增强模型的理解能力。

3. 模型训练

目标：训练模型能够根据输入的用户信息，准确地生成下一个物品的标识符。

主任务：Next Item Prediction。训练模型根据输入的用户历史序列，预测下一个物品的标识符。其训练目标与训练大语言模型的“Next Token Prediction”完全一致。
辅助任务（特别是对于语义ID） ：
- 为了弥合语义ID与自然语言之间的鸿沟，会增加对齐任务，如：
- - 物品文本 → 语义ID
  - 语义ID → 物品文本
  - 用户历史 → 物品文本
- 这些任务能帮助模型更好地理解语义ID背后的实际含义。
训练技巧：通常采用参数高效微调技术（如LoRA）来对大模型进行微调，以节省计算成本。

4. 模型推理

目标：使用训练好的模型，为给定用户生成最终的推荐物品列表。

生成方式：

方式	过程	问题
自由生成	模型在整个词表中自由生成Token序列。	可能生成无效ID（即数据集中不存在的物品标识符）。
受限生成	通过前缀树等技术，限制模型只在有效的物品ID词表中进行生成。	能保证生成的ID有效，是更可靠的推理方式。

结果匹配：对于自由生成产生的无效ID，需要一种方法将其“定位”到真实的物品上。常用方法是计算生成序列的向量表示与所有物品向量表示的相似度，返回最相似的物品。
生成内容拓展：除了预测下一个物品，模型还可以被用于生成新的物品描述或预测未来多个物品的序列。

关键系统架构与范式
生成式检索
- 核心思想：将推荐问题彻底重构为一个文本生成任务。模型直接生成候选物品的ID（或Token），而不是为海量物品计算分数。
- 流程：输入用户信息和上下文 -> 生成模型 -> 直接输出物品ID列表。
- 优势：极致的端到端，避免了传统“召回-排序”管道中候选集截断带来的信息损失，尤其擅长应对长尾物品。
生成式排序/重排
- 核心思想：在传统系统生成的候选集基础上，利用生成模型（如LLM）对候选物品进行深度理解和对比，生成更精准的排序分数或排序列表。
- 流程：召回/粗排 -> 将TOP N候选物品及其特征、用户画像输入LLM -> LLM通过推理生成最终排序。
- 优势：充分利用LLM的推理能力和世界知识，能够理解非常细微的用户偏好和物品特性。
生成式内容创建与增强
- 核心思想：利用生成模型为推荐系统本身创造数据或内容。
- 应用：
- - 合成数据生成：为解决数据稀疏和冷启动问题，生成逼真的用户-物品交互数据。
  - 物品内容增强：为物品自动生成标签、摘要、多种风格的描述文案。
  - 个性化内容生成：直接为用户生成全新的内容，如个性化新闻、AI绘画提示词、定制化食谱等。
对话式推荐系统
- 核心思想：将推荐过程转化为与用户的多轮自然语言对话，通过主动提问、澄清偏好、接收反馈来动态调整推荐。
- 技术依赖：高度依赖LLM的对话理解、管理和生成能力。
- 优势：交互性强，能更好地捕捉和修正用户意图，解决冷启动和模糊需求问题。
混合架构：
- 在实践中，纯粹的端到端生成面临延迟和成本的挑战。因此， “生成式+判别式”的混合架构成为主流。
- 分工：
- - 生成式模型（LLM） ：担任Orchestrator（编排器） ，负责意图理解、策略规划、结果融合与解释。
  - 判别式模型（传统推荐模型） ：担任Executor（执行器） ，作为高效、可靠的工具被LLM调用，负责大规模候选集生成和精排。

三、典型解决方案

抖音下一代生成式推荐系统：从级联架构到端到端一体化

1、核心目标：解决传统推荐系统的根本性痛点

抖音面对的业务环境极其复杂：亿级日增内容、多体裁（视频/图文/直播/商品）、严格的低延迟要求。传统级联推荐架构（召回->粗排->精排->重排）在此背景下暴露出四大核心痛点：

级联损失：未被召回层选中的内容将永久丢失，限制了系统的探索能力和天花板。
系统异构复杂：多模块、多模型并存，导致通信和缓存成本高昂，迭代效率低下。
迭代维护成本高：各阶段由不同团队负责，优化目标不一致，形成内耗。
延迟限制下的扩展困境：总延迟仅几十毫秒，单模块优化空间已触达天花板。

2、核心战略：渐进式一体化

抖音没有采取激进的彻底重构，而是选择了风险可控的渐进式路径：

从精排阶段切入，以此为基础向上合并重排，向下合并粗排和召回。
最终目标是构建端到端的统一模型，实现 “一次推理，处处使用” ，从根本解决级联损失和系统异构问题。

3、关键技术突破与创新

为支撑这一宏大的架构演进，在多个技术层面实现了突破：

技术领域	核心创新	达成的效果
数据与样本	List-wise样本组织：将一组候选物品作为一条样本，替代传统的Point-wise方式。	样本量压缩30倍 I/O带宽降低90%+ 日节省成本达数十万
序列建模	超长序列建模：结合动作采样、Sparse Attention等技术，支持10万+ 长度的用户行为序列。	用户序列建模能力提升近5倍 AUC提升0.3%+
训练效率	训练长度压缩：通过数据分布优化（如贝塔分布），将训练序列长度压缩至推理的10%以内。	训练成本压缩10倍，效果接近无损训练吞吐提升800%+
Kernel优化	自研HSTU Attention：性能优于Triton，支持多种Attention模式，为推理提供Page Attention支持。	极致优化计算性能，支撑大规模部署
LLM融合	特征文本化：将用户属性与行为序列转化为文本，利用LLM进行next item预测和视频图谱生成。	开源VLM/LLM已打平基线，为自然语言交互推荐奠定基础

4、架构演进：走向“粗精召一体化”

在一体化方向上，取得了实质性进展：

Item离散化：使用Tokenizer（如Codebook）将视频内容离散化为语义Token（如三级SID）。
生成式任务：在精排模型基础上，增加自回归的next item token预测任务。
多目标召回：模型具备多个召回Head，可直接生成不同目标的候选集，并结合RL进行对齐。
业务成果：该一体化模型已在线上承担20%的展现流量，带来 +0.07%的核心指标提升。

5、业务价值与收益

用户体验提升：
- 推荐相关性平均提升6% ，内容多样性改善。
- 核心指标：停留时长（StayDuration）+0.07% ，用户长期价值（LT）提升。
技术指标突破：
- Seq2item任务的R@1提升至9.04%（相对提升约108%） 。
- 在Feed流、消息推送、冷启动等多个场景的AUC和LT指标上均获得显著提升。
成本与效率优化：
- 存储成本减少85%，训练成本减少60% 。
- 千卡/万卡集群训练稳定，成本完全打平甚至更优。

6、总结与展望

范式变迁： “分久必合” ，传统的级联范式将逐渐被端到端的生成式推荐系统所取代。
技术融合：推荐系统需要与LLM/VLM深度融合，从“猜测”用户偏好，演进到“理解”用户意图，最终实现可解释、可对话的推荐。
硬件对齐：模型设计必须深度对齐GPU等硬件特性，探索推荐领域自身的Scaling Law。
挚文集团：生成式推荐进阶之路

挚文集团的实践提供了一个从工程架构视角审视推荐系统演进的绝佳案例，其核心路径是 “先工程化、再平台化、后智能化” 。

1、演进全景：从“草莽时代”到“生成式时代”

草莽时代（2015年前） - 混乱与高成本
- 现状：首页、附近、增长三套推荐系统完全独立，技术栈不统一。
- 核心问题：
- - 系统异构：模型碎片化（GBDT等），特征工程各自为政。
  - 数据孤岛：业务间数据无法互通。
  - 协作低效：算法与工程团队沟通成本极高，迭代缓慢（日上线2-4次，需20-30人维护）。
中台时代（2019年） - 标准化与平台化
- 核心目标：构建一站式平台，让算法工程师能自主完成工作，解放生产力。
- 关键基石：
- - 推荐数据库：统一离线和在线数据 schema，实现 “一份数据，处处运行” ，解决了特征对齐的核心痛点。
  - 推荐逻辑抽象：从代码→配置→DSL（领域特定语言） ，将推荐流程抽象为DAG工作流，通过图执行引擎进行调度。
  - 模型体系统一：建立从样本、特征、训练到推理的标准化流程，支持从GBDT到超大规模深度模型的平滑升级。
生成式时代（2023年） - 大模型能力融合
- 目标：在稳固的平台基础上，融入大模型能力，实现效果跃升。

2、大模型在推荐场景中的探索与应用

挚文集团的策略非常务实：不追求颠覆式重构，而是将大模型作为强大的“能力组件”嵌入现有成熟平台。

应用模式：LLM-as-Feature-Enhancer
- 核心思路是利用大模型增强现有系统的特征表示能力，而非直接替代传统推荐模型。
- 技术集成方案：
- - 打通多源大模型：集成国内外多种AI供应商及开源模型，确保服务的稳定性和灵活性。
  - 构建大模型平台：提供 “聊天式生成” 和 “Embedding生成” 两种模式，作为基础服务供下游业务调用。
具体应用场景 大模型生成的向量特征被融入到推荐链路的多个环节，形成以下框架：
- 召回阶段：
- - LLM标签特征召回：利用大模型理解用户意图，生成标签进行检索。
  - LLM向量召回：将用户和物品映射到统一的语义向量空间，通过向量数据库进行近邻检索，实现深度语义匹配。
- 排序阶段：
- - 精排模型增强：将LLM生成的向量特征作为补充特征，输入到传统的精排模型（如DeepFM等）中，丰富模型的语义信息。
- 重排阶段：
- - LLM向量特征再次用于重排模型，确保最终列表在语义上和用户偏好深度对齐。
核心价值与优势
- 务实高效：无需推翻现有经过验证的推荐体系，风险低，落地快。
- 效果增益：通过引入大模型的语义理解能力，有效提升了推荐的相关性和多样性。
- 平台赋能：得益于中台时代构建的统一平台，大模型能力可以快速、标准化地复用到所有业务场景中，避免了重复建设。

3、实践经验总结

工程架构先行：强大的、标准化的工程平台是算法快速迭代和新技术（如大模型）高效融合的基石。没有平台化，大模型的引入只会增加新的复杂性。
标准化优于性能：先通过标准化解决协作效率和数据一致性的问题，再追求极致的算法性能。
务实的技术选型：不盲目追求最前沿的技术，而是选择最适合当前业务阶段的方案。将大模型作为特征增强器，是一种投入产出比极高的策略。
平台化释放生产力：平台化降低了对他人的依赖，使算法工程师可以聚焦于算法本身，从而将团队效率提升了5倍以上。

总结

挚文集团的探索表明，大模型在推荐系统中的应用不一定是颠覆性的“生成式推荐”，也可以是渐进式的 “增强式推荐” 。其成功关键在于：先通过平台化建设打好数据和工程的坚实基础，再将大模型作为一颗强大的“芯片”嵌入其中，从而在保障系统稳定性和团队效率的同时，实现了推荐效果的智能化升级。

抖音内容理解大模型在推荐的应用

1、核心目标：解决传统推荐的“语义理解”瓶颈

抖音推荐系统面临的核心挑战是传统模型（尤其是双塔架构）过度依赖协同过滤数据，而缺乏深度的语义理解能力。这导致了：

相关性缺失：例如，用户观看综艺《明星大侦探》，系统却推荐完全不相关的小说《别说话》，因为模型无法理解两者在“悬疑推理”主题上的语义关联。
底线保障失效：无法有效过滤掉与用户当前兴趣完全无关的内容，严重影响用户体验。

技术根源：传统的双塔模型为了追求推理效率，在模型底层就进行了内容与用户侧的分离，导致深层的语义融合与理解能力不足。

2、核心技术解决方案：SAIL-Embedding

SAIL-Embedding是抖音（字节跳动）自研的一种基于大模型的全模态统一嵌入技术。它的核心目标是替代传统的“双塔模型”，为推荐系统提供一个能够深度理解视频、音频、文本等全模态内容语义的通用向量表示基座

特性	传统双塔架构	SAIL-Embedding (LLM融合架构)
核心原理	内容塔和用户塔分开编码，最后进行浅层交互（如点积）。	使用LLM作为骨干网络，对视频、音频、文本等全模态信息进行深度融合与编码。
优势	推理效率高，结果可缓存。	深层语义理解能力强，能捕捉复杂的跨模态关联。
劣势	语义融合浅，存在信息损失，性能有天花板。	计算成本相对较高。

SAIL-Embedding的技术创新点：

超大规模高质量数据训练：
- 使用超过100亿训练样本，覆盖三大任务：
- - Item to Item Retrieval：基于用户消费、搜索等行为构建正负样本对。
  - Query to Item Retrieval：关联搜索词与点击内容。
  - Classification：强化模型对视频主题、标签的识别能力。
先进的训练技巧：
- 动态难负例挖掘：自动筛选出“最难区分”的负样本进行训练，极大提升模型的判别力。
- 自适应多源数据平衡：智能调整不同来源数据的采样权重，保证模型既见多识广又能抓住重点。
解耦优化策略：
- 为了解决协同信号与内容语义可能存在的冲突，采用了空间解耦和重建优化等策略，确保在引入协同信息的同时，将纯内容理解能力的损失严格控制在2% 以内。

3、在推荐场景中的应用与价值

SAIL-Embedding生成的强大向量，作为一种基础能力被注入到推荐系统的多个环节：

召回阶段：
- 用于向量召回，通过语义相似度从亿级内容池中快速检索出相关候选集。解决了传统关键词或协同召回在语义相关性上的不足。
排序阶段：
- 将SAIL-Embedding作为强语义特征输入精排模型，帮助模型更好地理解内容本身，从而提升排序准确性。
冷启动：
- 对于新上传的视频，SAIL-Embedding能基于其多模态内容（画面、音频、标题）生成高质量向量，使其能够立即进入推荐流程，有效解决冷启动问题。
生态治理与体验优化：
- 在剪映等场景中，利用Embedding聚类来对模板进行打散，有效降低用户疲劳感，提升多样性。

4、业务效果与成果

通过线上A/B测试验证，SAIL-Embedding带来了全面的业务提升：

核心指标提升：
- Seq2item任务R@1提升至9.04% （相对提升约108%），证明其生成高质量候选的能力。
- 推荐相关性平均提升6% 。
线上业务收益：
- 抖音精选场景：7日用户生命周期（LT7）提升0.4% 。
- Feed流排序：Finish AUC提升0.1% 。
- 冷启动场景：30日用户生命周期（LT30）提升0.05% 。

总结与展望

在推荐系统中，对内容本身的深度理解与对用户行为的协同过滤同样重要。通过构建一个强大的多模态内容理解基座，并将其作为基础能力赋能整个推荐链路，能够从根本上提升推荐的准确性、相关性和用户体验。

将继续优化大模型性能，并探索与生成式大模型（LLM）的深度融合，最终为实现可解释、可对话的下一代智能推荐系统奠定坚实的基础。

阿里 RecBot：聊天式推荐智能体
交互式推荐信息流

这是一种全新的交互理念，其核心突破在于：

无缝集成：将自然语言指令输入框直接嵌入主推荐信息流，用户无需切换到专门的聊天界面，即可在浏览过程中随时表达需求，实现了 “边看边聊” 的自然体验。
主动引导：用户从被动接收变为主动参与者，可以直接告诉系统“我想要什么”（正面偏好）和“我不要什么”（负面偏好），从根本上解决了传统系统反馈信息模糊的问题。

RecBot的双智能体架构

Parser Agent：精通需求的“翻译官”
- 职责：将用户的自然语言指令精准地解析为结构化的、机器可理解的偏好信息。
- 核心技术：
- - 双向分解：将指令分解为正面偏好（如“喜欢蓝色”）和负面偏好（如“不要花纹”）。
  - 约束区分：区分硬约束（如“价格低于200元”，必须满足）和软偏好（如“风格休闲”，语义理解）。
  - 动态记忆整合：在多轮对话中，能智能处理新指令与历史偏好的关系（保持、整合或解决冲突），维持一个连贯的用户意图状态。
Planner Agent：制定策略的“策划师”
- 职责：根据Parser解析出的结构化偏好，动态调用和组合各种工具，生成最终的推荐列表。
- 模块化工具链：
- - Filter工具：处理硬约束，快速过滤不满足条件的商品。
  - Matcher工具：处理正面偏好，结合语义相似性和协同过滤来寻找匹配商品。
  - Attenuator工具：处理负面偏好，降低不符合用户“不喜欢”项的商品权重。
  - Aggregator工具：综合所有工具的评分，生成最终排序。
- 自适应编排：根据指令的复杂程度，动态决定工具的使用顺序和组合，兼顾效果与效率。
流程：用户用自然语言提出需求 -> Parser解析 -> Planner规划并调用工具 -> 返回推荐结果和自然语言解释 -> 多轮交互 refinement。

多智能体优化与高效部署

直接使用超大模型（如GPT-4）成本高昂。RecBot采用知识蒸馏技术进行优化：

模拟环境：让一个“用户模拟智能体”与强大的“教师模型”进行多轮对话，生成大量高质量的训练数据。
能力迁移：用这些数据训练更轻量级的“学生模型”，使其在保持高性能的同时，大幅降低了部署和推理成本。

实验验证与结果分析总结
1. 实验设计
- 验证体系：采用离线模拟实验+在线真实环境测试的多层次验证方法
- 测试数据集：Amazon图书、MovieLens电影、淘宝电商平台三大数据集
- 交互场景：单轮交互场景（目标明确用户）多轮交互场景（探索性购物行为）多轮兴趣漂移场景（偏好动态变化）
1. 离线实验结果性能表现：
- Amazon数据集单轮交互：
- - RecBot-GPT的Recall@10：0.2459、传统SASRec方法：0.0098、RecBot效果是传统方法的25倍
- 淘宝数据集多轮交互：
- - RecBot-GPT通过率：41.14%、传统BGE方法通过率：17.18%、RecBot平均交互轮数：4.28轮、BGE平均交互轮数：5.12轮
1. 在线实验成果

用户体验提升： 负面反馈频率下降：0.71%、暴露商品类别多样性提升：0.88%、点击商品类别多样性提升：1.44%

商业价值体现： 页面浏览量提升：0.56%、加购物车率提升：1.28%、总商品交易额（GMV）提升：1.40%

快手 OneRec-Think：具备显式推理的生成式推荐
核心框架：OneRec 的三大关键技术创新

OneRec采用编码器-解码器架构（如下图），将推荐问题转化为序列生成任务，在训练过程中使用NTP (Next Token Prediction) 损失函数优化。

OneRec的成功建立在三个关键技术创新之上：

1. 生成式模型架构：编码器-解码器与语义分词器

语义分词器：将亿级视频内容转化为机器可理解的“词汇”。采用协同感知的多模态分词方案，融合视频标题、图像、音频等多模态信息，并为每个视频生成3层由粗到细的语义ID。
编码器-解码器：
- 编码器：负责压缩和理解用户全生命周期的行为序列（短期、长期、静态特征等），完成用户兴趣建模
- 解码器：采用混合专家（MoE）架构，以自回归（Next Token Prediction）的方式逐点生成推荐列表的语义ID，实现了模型参数的高效扩展。

2. 基于强化学习的偏好对齐：突破传统系统天花板

预训练模型只能拟合历史推荐系统的分布，无法实现超越。OneRec引入多奖励强化学习框架来直接对齐用户偏好：

偏好奖励：核心奖励，通过一个奖励模型学习对用户多个目标（点击、点赞、时长等）进行个性化融合后的综合分数（P-Score），指导模型优化。
格式奖励：为了解决RL训练导致的“挤压效应”（模型输出多样性下降、非法生成增多），此奖励专门鼓励模型输出合法的语义ID格式。
工业场景奖励：用于满足特定的业务需求，如打压营销号、促进冷启动视频分发等。
优化算法：采用改进的ECPO算法，比标准的GRPO训练更稳定。

3. 极致的性能优化：达到LLM级别的算力效率

OneRec通过架构革新和系统深度优化，大幅提升了算力利用率：

架构优势：将关键算子数量从15000+个压缩至1200个，模型结构更统一，便于优化。
训练优化：通过计算压缩（共享上下文计算）、自研SKAI嵌入加速系统、混合精度与编译优化等手段，将训练MFU提升至23.7% 。
推理优化：面对大束宽（Beam Size=512）的生成需求，通过计算复用（Encoder一次计算，Beam间共享）、算子融合、动态批处理等策略，将推理MFU提升至28.8% 。

核心探索：OneRec-Think—引入大模型推理能力

在OneRec的基础上，快手进一步提出OneRec-Think，旨在将大模型的思维链推理能力引入推荐系统，使推荐过程更精准、可解释。

核心思路：先让模型生成一段推理链解释用户可能喜欢某个物品的原因，再将此推理链作为上下文，去预测最终的推荐物品语义ID。 推理序列 → 语义ID预测
三阶段实现：
1. 物品语义对齐：将推荐物品的语义ID与大模型的语言空间对齐。
2. 推理激活：通过监督学习，分步训练模型生成高质量的推理链。
3. 推理增强：提出Rollout-Beam奖励，使用强化学习（GRPO算法）进一步优化推理路径的质量。
工程落地：采用 “Think-Ahead”架构，将耗时的推理过程放在离线阶段完成并缓存结果，在线阶段进行快速解码，以满足推荐的低延迟要求。
流程：模型在收到用户序列后，先生成一个“思考”T（如用户当前可能的心情或意图），然后联合原始序列和思考T来共同预测下一个物品。即P(iₜ₊₁ | S, T)和P(T | S)。这使得推荐决策过程变得透明且可控。

应用效果与业务价值

OneRec线上A/B测试结果：
- 用户停留时长：主站提升0.54% ，极速版提升1.24% 。
- 7日用户生命周期（LT7） ：主站增长0.05% ，极速版增长0.08% 。
- 运营成本：降低至传统方案的10.6% 。
- 本地生活场景：GMV暴涨21.01% ，订单量提升17.89% 。
OneRec-Think线上A/B测试结果：
- 在1.29%的流量中，App停留时长显著提升0.159% 。

快手在大模型的推荐系统中应用的两条演进路径：
1. 架构革命（OneRec） ：用端到端生成式范式取代传统级联架构，解决算力效率和目标一致性问题，验证了推荐系统的Scaling Law。
2. 能力注入（OneRec-Think） ：在生成式架构上，进一步注入大模型的显式推理能力，提升推荐的精准性和可解释性。
京东联盟广告：基于DPO对齐的生成式推荐
核心目标

京东联盟广告业务的核心需求是：在保持点击率（UCTR）不下降的前提下，显著提升转化率（UCVR）。为此，团队探索了基于生成式推荐大模型和直接偏好优化（DPO）对齐范式的解决方案。

生成式推荐的基础架构

生成式推荐进行多目标优化：

为了利用大模型进行端到端的推荐，京东构建了一套完整的流程：

商品离散化（构建语义ID） ：
- 使用RQ-VAE框架将商品（如标题等信息）转化为一组离散的语义ID（SID） 。
- 这相当于为每个商品创建了一套可供大模型理解和生成的“词汇”。
行为序列建模：
- 将用户的历史行为（点击、购买等）转化为一串语义ID序列。
- 采用类似训练语言模型的方式，以自回归（Next Item Prediction） 为目标进行训练。
- 训练策略上，采用Pre-train + SFT（监督微调） 的方式，效果优于单独使用SFT，尤其在数据稀疏场景下提升明显。

核心探索：使用DPO对齐范式优化UCVR

在基础模型之上，核心工作是如何让模型在推荐时不仅考虑“用户可能点击什么”，更要考虑“用户可能购买什么”。

DPO是一种直接利用偏好数据（如“回答A优于回答B”）来微调大模型、使其输出更符合人类喜好的方法，无需训练复杂的奖励模型。

a) 数据构造策略与离线实验

团队构建三种不同的正负样本对进行DPO训练，离线实验结果（Hit@1指标，与未对齐模型的绝对差值）如下

数据构造方案	点击测试集 Hit@1	转化测试集 Hit@1
<下单商品，点击未下单商品>	-0.0017	+0.0528
<下单商品，曝光未点击商品>	-0.0076	+0.0795
<下单商品，曝光未下单商品>	-0.0054	+0.0477

结论：所有方案都能在转化指标上带来显著提升，同时在点击指标上仅有轻微下降。其中， <下单商品，曝光未点击商品> 的组合在转化指标上提升最明显。

b) 目标函数的高级优化

为了进一步提升效果，团队尝试了两种DPO的变体：

Softmax-DPO（处理多负例） ：
- 在点击测试集上带来 +0.0028的提升，但在转化测试集上导致**-0.0253**的下降。
- 分析认为，多负例可能引入了负例间的位序信息冲突，影响了效果。
β-DPO（动态调整超参数β） ：
- 在点击测试集上导致**-0.0041的下降，在转化测试集上无增益（0）** 。
- 该方法有效缓解了超参敏感性问题，但在最终效果提升上不明显。

最终结论：尽管高级变体效果不一，但基础的DPO方法相较于未对齐模型，在转化指标上有非常明显提升。

线上业务表现

将经过DPO对齐的模型进行线上A/B测试，结果验证了其有效性：

指标	对齐模型 vs. 未对齐模型
UCTR（点击率）	+0.6% （轻微提升）
UCVR（转化率）	+8.0% （显著提升）

实验结果完全达到了 “保UCTR，升UCVR” 的业务目标，显著提升了广告转化率。

华为推荐：大模型在推荐场景中的探索和应用

核心工作主要围绕两大方向展开：利用大模型增强传统推荐模型和直接使用大模型进行排序。

一、核心应用方向

LLM for Feature（大模型用于特征增强）
- 目标：利用大模型的开放世界知识和逻辑推理能力，为传统基于ID的推荐模型补充丰富的语义信息，解决冷启动、数据稀疏等问题。
- 关键框架KAR：一个利用大模型开放知识辅助推荐的通用框架。

知识生成：通过问答式提示，让大模型生成关于物品（如电影导演、音乐风格）和用户（基于行为序列推断兴趣偏好）的语义知识。
知识适配：使用编码器（如BERT）将生成的文本知识转换为结构化嵌入向量。
知识利用：通过多专家网络、离散化等方法，将语义向量与传统的ID特征融合，输入下游推荐模型。

实践与优化：
- 聚类降本：对用户和物品进行聚类，统一生成聚类级别的Prompt，大幅减少大模型调用次数，并融合了协同信息。
- 流式更新：周期性地利用大模型推断用户的新增兴趣，实现知识的流式更新。
应用场景：已在华为音乐推荐、应用市场APP推荐等场景全面上线，并带来显著收益（如AUC提升）。

LLM for Ranking（大模型直接用于排序）
- 挑战：大模型直接处理推荐场景下的超长用户行为序列存在困难，效果会随序列增长先升后降。
- 解决方案：
- - 长序列理解方法：采用基于语义相似度的检索方法，从用户长序列中动态检索出与当前候选物品最相关的部分行为，构建精简而有效的用户表征，供大模型处理。

个性化参数微调方法 (Meta-LoRA) ：为解决训练效率与个性化效果的平衡问题，提出了一种创新微调方法。该方法通过路由机制，为不同用户或样本生成独特的LoRA参数，将全量数据训练的传统推荐模型知识隐式注入大模型，使其能用少量数据微调即可理解长序列和个性化信息。

优势：大模型展现出样本高效性，仅需少量样本微调，其效果即可媲美甚至超越需要大量数据训练的传统模型。

二、关键技术突破与优化

大模型解码加速技术
- 问题：大模型生成知识时调用次数多、单次延迟高，导致成本和时间开销巨大。
- 解决方案：提出了 “个性化检索池 + 模糊校验” 的投机解码加速方法。
- - 个性化检索池：为相似用户/物品构建共享检索池，利用推荐场景中文本相似性高的特点，从历史生成结果中直接检索候选文本。
  - 模糊校验：放宽大模型校验条件（从Top-1匹配到Top-k匹配），并配合Top-p概率控制，以小幅且可接受的信息损失换取大幅加速。
- 效果：在保证推荐效果（AUC基本不变）的前提下，实现了3到5倍的加速，并已在华为内部广告推荐等场景落地。
语义与协同的联合优化
- 华为认识到大模型强于语义理解但弱于协同过滤，而传统模型正好相反。因此，其所有工作的核心趋势都是将语义信息与协同信息进行联合优化。
- 具体体现在：在特征增强中引入协同聚类；在直接排序中将ID模型知识注入大模型（Meta-LoRA）。
高效的协同-语义对齐框架
- 目标：结合大模型的语义理解优势和传统ID模型的低延迟、强协同优势。
- 方法：设计两阶段框架：
- - 第一阶段：进行跨模态知识对齐，让大模型（处理文本）和传统模型（处理ID）在语义空间中对齐。
  - 第二阶段：将有语义感知能力的传统模型在下游全量数据上进行微调，强化其协同信息感知能力。
- 结果：线上推理时仅需部署高效的传统模型，同时享受了大模型带来的语义增益，在公开和内部数据集上均取得显著提升。
大模型在推荐流程中的探索
Uni-CTR - 构建多场景推荐底座（华为）
- 目标：解决多场景推荐中数据不平衡、场景间关系难以建模、新场景冷启动难等问题。

Uni-CTR的核心创新在于 “语义化输入” 与 “共享-特异网络设计” 。
方法：
1. 语义化输入：将表格型的用户、物品、场景特征用自然语言描述，构成提示词输入大模型。
2. 共享-特异网络设计：
3. - 共享Backbone（通用网络） ：使用一个大型语言模型作为共享的Backbone，用于从所有场景的数据中学习通用的语义知识和推理能力。
  - Leader网络（场景特异网络） ：在Backbone的某些层后，为每个场景引入一个轻量级的“Leader网络” 。该网络专门学习其对应场景的独特分布和特性。
  - 门控融合网络：通过一个门控机制，动态地融合Backbone输出的通用表征和Leader网络输出的场景特异表征，形成最终的用户/物品表示，送入预估网络进行点击率预测。
优势：
- 全面提升：在所有场景上均实现效果提升，避免主场景主导模型的问题。
- 强大的Zero-shot能力：对于全新场景，无需训练数据即可利用大模型的通用知识进行有效推荐。
- 灵活扩展：新增场景时只需增加轻量的Leader网络，对主干模型影响极小。
- 遵循Scaling Law：随着Backbone的参数量的增大，Uni-CTR的效果持续提升，验证了其具备类似大模型的规模效应。

总结：

公司/机构	项目/系统名称	核心特点/突破	应用效果/目标
抖音	下一代生成式推荐系统	1.渐进式一体化：从精排切入，合并召回、粗排、重排 2.关键技术突破： List-wise样本组织(样本压缩30倍) 超长序列建模（10万+长度）训练长度压缩（成本降10倍） 3.粗精召一体化：多目标召回Head + RL对齐	用户体验：停留时长+0.07% 推荐相关性提升6% 技术指标： Seq2item R@1提升至9.04%（+108%）存储成本降85%，训练成本降60%
挚文集团	生成式推荐进阶	1.平台化演进路径：草莽时代→中台时代→生成式时代 2.工程架构先行：推荐数据库统一、DSL工作流 3.LLM-as-Feature-Enhancer：将大模型作为能力组件嵌入平台 4.多场景应用：召回、排序、重排全链路增强	效率提升：团队从20人优化至4-5人工程师效率提升5倍+ 特征对齐从周级到一次性通过业务价值：实现智能化升级，构建技术护城河
抖音	SAIL-Embedding	1.全模态统一嵌入：替代传统双塔架构 2.超大规模训练：100亿+样本，覆盖三大任务 3.先进训练技巧：动态难负例挖掘、自适应数据平衡 4.解耦优化策略：内容侧性能损失控制在2%以内	核心指标： Seq2item R@1提升至9.04%（+108%）推荐相关性平均提升6% 线上收益：抖音精选LT7 +0.4% Feed Rank AUC +0.1% 冷启动LT30 +0.05%
阿里巴巴 & 中国人民大学	RecBot 聊天式推荐系统https://www.techwalker.com/2025/1015/3172719.shtml	1.交互式推荐信息流 2.双智能体架构： Parser Agent：解析用户指令。 Planner Agent：规划并执行推荐策略。 3.知识蒸馏优化	离线：Recall@10达0.2459，是传统方法25倍。在线： UCVR: +8.0% UCTR: +0.6% GMV: +1.40% 负面反馈下降0.71%
快手 (Kuaishou)	OneRec-Think https://arxiv.org/abs/2510.11639	1.生成式架构：Encoder-Decoder + 语义分词器。 2.多奖励RL偏好对齐（偏好、格式、工业场景奖励）。 3.极致性能优化（训练/推理MFU >23%）。 4.OneRec-Think三阶段：语义对齐、推理激活、推理增强。	OneRec在线：停留时长：主站 +0.54% ，极速版 +1.24% LT7增长：主站 +0.05% ，极速版 +0.08% 成本降至传统方案10.6% OneRec-Think在线：停留时长 +0.159%
京东联盟广告	生成式推荐与DPO优化https://developer.jdcloud.com/article/4200	1.生成式基础架构（语义ID + 序列建模）。 2.DPO偏好对齐：构建（正例，负例）数据对，微调模型以优化UCVR。	在线： UCVR: +8.0% UCTR: +0.6% 完全达成“保UCTR，升UCVR”目标。
华为	大模型增强传统推荐https://www.infoq.cn/article/ce3scr4bv5a4tfqqrht4	1.KAR框架：利用大模型生成开放域知识，增强特征。 2.LLM for Ranking：解决长序列理解难题。 3.解码加速：“个性化检索池+模糊校验”。 4.协同-语义联合优化。	应用场景：已在华为音乐、应用市场等场景上线。效果：带来显著AUC提升；解码加速3-5倍。
淘宝天猫	生成式AI全面落地https://www.alibabagroup.com/document-1915930722120499200	大模型重构搜索推荐引擎，理解复杂语义	推荐场景点击率获得双位数增长

四、生成式推荐方向

总的来说有三种探索范式：

1、LLM Embeddings + RS

将大型语言模型（LLM）作为特征抽取器，输入用户（User）或物品（Item）的特征，LLM输出对应特征的嵌入向量（Embedding）。推荐系统（RS）随后利用这些Embedding进行推荐。

生产应用（Production Use）：主要在离线环境下预先生成Embedding，例如为物品的文本描述或图像生成Embedding。

2、LLM Tokens + RS

向LLM输入用户和物品的特征，LLM生成蕴含潜在偏好信息的特定标识符（Token）。推荐系统则基于这些Token执行推荐任务。

生产应用（Production Use）：在离线阶段预生成Token（也可称作标签，Tag），用于推荐系统的标签到物品（tag2item）召回策略或作为模型输入特征。

3、LLM as RS

直接将LLM作为推荐系统核心。输入包括用户偏好、用户历史行为以及明确的任务指令（Instruction），由LLM生成最终的推荐结果列表。

技术方向	核心思想	关键技术	优势	挑战
大模型作为知识增强器	不直接推荐，而是发挥世界知识和跨域推理能力，	通过上下文学习，让大模型对用户历史和行为物品进行“总结”，然后将这些文本作为额外特征输入给下游的传统推荐模型。	• 效果显著 • 保持传统模型高效推理 • 风险低，落地快	• 依赖传统模型性能 • 特征对齐复杂度高
端到端生成式模型	单一生成式模型替代多级流水线，根据用户上下文生成候选物品ID。	• 语义ID离散化(RQ-VAE) • 受限解码 • 序列到序列模型架构	• 避免级联损失 • 端到端优化 • 长尾物品覆盖好	• 超大规模物品库处理 • 生成延迟控制 • ID有效性保证
生成式智能体与对话推荐	具备长期记忆和工具调用能力的推荐智能体，动态理解并满足其需求	• ReAct/Plan-and-Execute框架 • 工具学习 • 对话状态管理	• 动态理解用户需求 • 多轮交互优化 • 用户体验好	• 意图理解复杂 • 系统交互可靠性 • 计算成本高
推荐场景专用大模型	设计一个两阶段框架，明确划分不同模型的职责，三空间框架明确划分职责	• 语言空间：大模型从纯语义角度理解用户序列，负责召回。• 推荐空间：从推荐角度理解序列，聚焦与推荐相关的信息，负责召回。• 物品空间：融合协同过滤等统计信息，对候选物品进行快速、精准的打分排序。	• 各方优势充分发挥 • Few-shot表现优异 • 效果与效率平衡	• 架构设计复杂 • 多空间协同挑战
混合协同架构	生成式与判别式模型协同，充分发挥生成式模型的语义理解、推理能力与传统判别式模型的高效、精准优势。	• LLM as Orchestrator：LLM作为中央控制器，规划并调用传统模型作为工具。• LLM as Enhancer：LLM不直接推荐，而是为传统模型生成增强特征(如知识注入、序列摘要) • 动态策略编排	•语义理解、推理能力与效率精准兼顾 • 系统灵活性高 • 风险可控	• 协同机制设计复杂 • 系统运维难度增加

五、总结

生成式AI技术正驱动推荐系统经历一场深刻的范式革命，使其从静态的“过滤系统”演变为动态、交互且具备创造性的“内容发现与生成平台”。

范式根本性转变：生成式推荐的核心是从传统的“判别式”匹配（从已有物品中筛选）转向“生成式”创造（直接生成推荐列表、内容或解决方案）。这一转变以LLM为中央“大脑”，通过语义ID、Next Token Prediction等关键技术，将推荐重构为序列生成任务。
技术架构趋于融合与系统化：纯粹的端到端生成面临成本与延迟挑战，因此“生成式+判别式”的混合架构成为工业界主流。在此架构中，LLM作为编排器，负责意图理解、策略规划和结果解释；传统推荐模型则作为高效、可靠的执行器。阿里RecBot的双智能体、快手OneRec的极致优化、华为的KAR框架和京东的DPO对齐，均是这一融合思想的成功实践。
效果与体验双重提升：行业领先者的线上实验表明，生成式推荐在核心业务指标（如GMV、停留时长、转化率）上实现了显著提升。更重要的是，它通过对话式交互和原生可解释性，极大地改善了用户体验，使用户从被动接收者变为主动参与者，实现了推荐系统“以用户为中心”的飞跃。
对齐技术是关键突破点：为了让生成式模型输出更符合用户真实偏好和商业目标，直接偏好优化（DPO） 和基于RL的多奖励对齐等技术变得至关重要。它们成功地将模型从单纯拟合历史数据，引导至直接优化最终业务目标（如UCVR）的轨道上。

参考文章：

大模型在华为推荐场景中的探索和应用：www.infoq.cn/article/ce3…
大语言模型在推荐系统中的探索与应用：zhuanlan.zhihu.com/p/710482122
大模型在推荐系统的探索与实践：zhuanlan.zhihu.com/p/684054824
阿里巴巴团队开发聊天式推荐系统：www.techwalker.com/2025/1015/3…
京东联盟广告生成式推荐探索与实践-DPO多目标优化：developer.jdcloud.com/article/420…
生成式推荐系统与京东联盟广告-综述与应用：xingyun.jd.com/shendeng/ar…
One4All下一代生成式推荐系统：xingyun.jd.com/shendeng/ar…
生成式推荐的演进、前沿与挑战【AI业务应用方向】xingyun.jd.com/shendeng/ar…
快手OneRec-Think技术分享：zhuanlan.zhihu.com/p/196353626…
快手提出端到端生成式推荐系统OneRecblog.csdn.net/kuaishoutec…