SAIL-Embedding：打通「视、文、音」的全模态嵌入技术深度解析近日，字节跳动抖音 SAIL 团队联合香港中文大

SAIL-Embedding：打通「视、文、音」的全模态嵌入技术深度解析

大家好，我是AI算法工程师七月，曾在华为、阿里任职，技术栈广泛，爱好广泛，喜欢摄影、羽毛球。目前个人在烟台有一家企业星瀚科技。

关注公众号：智启七月，获取最新观察、思考和文章推送。
关注知乎：七月，获取最新观察、思考和文章推送。
关注CSDN：智启七月，获取最新观察、思考和文章推送。
关注稀土掘金：智启七月，获取最新观察、思考和文章推送。
网站1 ：七月
网站2：zerodesk

我会在这里分享关于编程技术、独立开发、行业资讯，思考感悟等内容。爱好交友，想加群滴滴我，wx：swk15688532358，交流分享

如果本文能给你提供启发或帮助，欢迎动动小手指，一键三连 (点赞、评论、转发)，给我一些支持和鼓励，谢谢。

作者：七月链接：www.xinghehuimeng.com.cn 来源：七月著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

传送门

技术报告：arxiv.org/pdf/2510.12…
HuggingFace:huggingface.co/Bytedanc

SAIL-Embedding发布

再短视频推荐，跨模态搜索等领域中，尽管从基于 CLIP 的双塔架构向大型视觉语言模型的演进取得了可喜的发展，但以往的工作在实际的用途中仍然有一些挑战，模态支持有限、训练机制不稳定、产业领域差距等问题。

添加图片注释，不超过 140 字（可选）

近日，字节跳动抖音 SAIL 团队联合香港中文大学 MMLab 提出 SAIL-Embedding一款专为大规模推荐场景设计的全模态嵌入基础模型，不仅实现了视觉、文本、音频的统一表征，更在抖音真实业务场景中带来显著效果提升，相关技术报告已正式公开。

原理

现有的多模态嵌入的模型多是遵循两种设计范式：

以CLIP和SiqLIP为主的利用配对数据，加之浅融合层，但是对于现代的这种字幕、帧、视觉等多且复杂的模态仍显乏力。
近期越来越受到关注的整合LLM和MLLMs的架构设计，但是训练不稳定，需要严格的架构设计和优化才能发挥稳定。

因为这些遭点，字节跳动抖音 SAIL 团队联合香港中文大学 MMLab 提出 SAIL-Embedding的架构。

添加图片注释，不超过 140 字（可选）

全模态覆盖

SAIL-Embedding 的核心思想是将异构多模态信息转化为统一的嵌入空间，实现强大的跨模态理解和检索。比如给定一个包含音频 a、视觉 v 和文本 t 信号的输入样本 x，该框架利用大型语言模型（LLM）[ 53 ， 63 ]作为中心推理和集成骨干，并在工作之后进行预热。

这使得SAIL-Embedding不同于普通常见的多模态模型仅能支持文本+视觉模态，而是可以覆盖全模态的能力。甚至可以任一组合，比如：字幕 + 视频封面，文本+视频，文本+字幕+视频+音频等各种模态组合。

添加图片注释，不超过 140 字（可选）

该模型的架构采用的是文本+视觉+音频+融合模块的架构。采用了常规的预处理管道，包括标记化并通过可训练的嵌入层将每个标记映射到其相应的单词嵌入。对于视觉和音频模态，我们遵循首选的融合模态，如果可用，则使用“外语”比喻：每种非文本模态都由特定于模态的编码器（即 Efor 视觉和 Efor audio）处理，以将其原始特征投影到自然语言兼容的嵌入空间中。然后，这些嵌入在维度和语义上进行对齐，然后输入 LLM 进行多模态融合。

对于文本分词器，为了适应显示世界的短视频中包含的丰富信息，比如标题、标签、作者标签、OCR文本、ASR文本等信息，该模型采用了多种数据训练：OCR、ASR、昵称、标签等信息共同进行对比查询和目标样本的嵌入训练。

由于传统的采用基于ViT+patch的方式会导致对于密集的标记化虽然保留了细粒度的视觉细节，但他也会产生过多的标记，特别是对于高分辨率或长时间的视频，会导致下游的计算消耗巨大。

抖音团队引入了一个视觉感知器模块作为标记减少的可学习瓶颈。具体来说，他们将视觉标记与 N= 16 个可学习的潜在查询标记连接起来，将它们输入到 Transformer 块中，并且仅保留查询标记嵌入作为压缩的视觉对象表示法。这种机制保留了基本语义内容，同时显着减少了序列长度，从而提高了效率和可扩展性。

添加图片注释，不超过 140 字（可选）

音频模块采用的是现有的开源模型，团队官方采用了Whisper等模型的CLAP模型。

在融合阶段，采用了双向注意力机制，将获得的音频、视觉、文本序列，单峰标记序列连接起来形成一个单一的多模态序列，然后通过多模态Transformer融合模块进行融合和跨模态推理。

创新全链路训练策略

由于传统的训练依赖于手动分配的数据混合比例，由人类主观的知识和任务的直觉判断，这种方式很难凭经验去决断验证，且可能导致次优的泛化。

团队引入了一个自适应加权框架，该框架直接从数据分布中学习特定于数据集的采样权重，而不是从人类设计的启发式方法中学习。在保持整体数据质量的同时保留分布多样性。这可以防止对基准域的过度拟合并避免分布崩溃，从而提高对看不见任务的泛化。

为了使模型能够适应现实世界中的工业级任务场景，使用内容感知的渐进式训练框架，实现从从内容理解到推荐适配的全链路优化。

添加图片注释，不超过 140 字（可选）

SAIL-Embedding 的训练并非单一阶段，而是一套覆盖「基础能力-任务适配-推荐增强」的多阶段体系，确保模型既能理解内容语义，又能贴合真实推荐场景需求

训练分三阶段逐步深入：

第一阶段： 用超 10B 样本的大规模多模态数据（含图文音）预训练，奠定基础语义理解能力；

第二阶段： 聚焦与下游任务（如视频检索、标签分类）对齐的高质量数据，优化任务适配性；

第三阶段： 引入难负样本微调，强化模型对相似内容的判别能力。

对于下游推荐场景任务中的捕捉用户兴趣需求的任务中，提出了一种协作感知的推荐增强训练策略：序列到项目的蒸馏和ID到项目蒸馏。再多种角度和多种维度对数据、模型进行建模：

内容感知单峰兴趣建模
内容感知多峰兴趣建模
协作感知的单峰兴趣建模
协作感知多峰兴趣建模

添加图片注释，不超过 140 字（可选）

利用查询序列和目标视频的表示进行对比训练。

再ID到项目的蒸馏中，将模型的输出与推荐端表示直接对齐。利用推荐系统中每个项目的多个 ID 嵌入，通过特征投影将它们与全模态表示对齐，以进行特征蒸馏更好地适应推荐场景。

刷新多任务 SOTA，抖音业务指标显著提升

添加图片注释，不超过 140 字（可选）

SAIL-Embedding 的性能通过两大维度验证：公开基准测试与工业场景实测。

在跨模态检索领域的权威基准数据集（如 MSCOCO、Flickr30K、AudioCaps）上，SAIL-Embedding 的跨模态检索准确率（R@1、R@10）显著超越现有模型：

添加图片注释，不超过 140 字（可选）