LLM 大语言模型揭秘：词嵌入模型——喂给模型的数据到底是什么？LLM 大语言模型揭秘：词嵌入模型——喂给模型的数据到底

LLM 大语言模型揭秘：词嵌入模型——喂给模型的数据到底是什么？

伴随人工智能的持续演进，嵌入模型已然成为机器阐释非结构化数据并与之交互的基石。借助把文本、图像、音频以及视频等输入内容转化为紧凑的数学向量，此类模型能够卓有成效地处理各类数据，达成语义理解与语义分析等功能。

什么是词嵌入模型？

嵌入模型的核心是将高维（通常是非结构化）数据转换为低维的连续向量空间。每个向量（或嵌入）都封装了输入的基本特征，保留了语义关系和结构信息。这些嵌入支持各种下游任务，包括语义搜索、推荐系统、聚类、分类等等。这就是我们一直提的 word embedding 过程。

嵌入模型将多种数据类型转换为统一的向量表示

嵌入模型在经过精心训练后，能够达成这样的效果：确保那些具有相似特征的输入，在向量空间里会拥有极为接近的嵌入表示。这就好比在一个特定的空间中，相似的事物会聚集在一起。相反，对于不同的输入，它们在向量空间中的嵌入会相距较远，就像不同类型的事物会处于空间的不同区域。

在嵌入空间中，这种独特的几何排列方式具有重要意义。它使得我们能够借助一些距离度量方法，如余弦相似度或者欧几里得距离，来高效地进行相似度计算。通过这些度量，我们可以快速且准确地判断不同输入之间的相似程度。

word embedding

嵌入模型如何工作？

嵌入模型的运作通常包括以下阶段：

输入预处理

此步骤根据数据模态而有所不同：

图像经过两次随机增强并生成两个不同的视图，考虑到必须输入嵌入模型的所有可能数据，这一点很重要。

输入到嵌入模型之前的预处理

文本：标记化将句子分成单词或子词单元，并将它赋予独一的标记 ID。

图像：应用调整大小、规范化，有时还应用数据增强（如翻转或裁剪）。

音频：音频信号通常转换为声谱图或直接作为波形处理。

视频：视频被分解成帧，并进行采样以捕捉时间一致性。

特征提取

深度神经网络处理预处理的输入以提取高级特征。此步骤也取决于数据模态，如下所示：

增强视图通过编码器生成嵌入模型所需的特征表示。

特征提取

对于文本，Transformer 编码器学习单词或句子的上下文表示。

对于图像，卷积或基于变换器的模型学习空间特征。

对于音频，Wav2Vec 和 Whisper 等模型可以学习潜在的声学模式。

对于视频，每帧提取空间特征，然后与时间模型聚合。

投影到嵌入空间

该模型将提取的特征压缩成一个固定长度的向量，通常使用池化层（例如，mean、max 或 CLS token）或线性投影层。这个向量就是 embedding。

将学习到的特征投影到潜在向量中

模型训练

嵌入模型通常以如下目标进行训练：

对比学习：相似的输入对（例如，图像-标题对）在嵌入空间中靠得更近，而不相似的输入对则被推开。

掩蔽建模：预测掩蔽的输入部分（如 BERT）以促进上下文理解。

重建：像自动编码器这样的模型试图从嵌入中重建输入。

监督分类：有时，使用网络的倒数第二层通过分类来训练嵌入。

无监督学习目标：模型学习通过将相似的单词或图像聚类在一起来组织数据。

后处理

在某些情况下，嵌入会被标准化（例如，L2 标准化）或使用 PCA 或 UMAP 来降低维度，以进行可视化或部署。

按模态划分的嵌入模型类型

嵌入模型专门用于处理各种数据格式，每种格式都有其独特的结构和要求。下面，我们将从文本开始，探讨如何针对不同类型的输入生成嵌入。

文本嵌入模型

文本嵌入模型处理自然语言并生成用于捕捉语义和句法属性的密集向量表示。一些著名的架构包括

将自然语言转换为密集向量嵌入

BERT（来自 Transformer 的双向编码器表示）：使用掩码语言建模和下一句预测进行训练，BERT 可以捕获双向上下文。

RoBERTa： BERT 的优化变体，具有改进的训练策略。

GPT（生成式预训练 Transformer）： GPT 主要具有生成性，还可以从其中间层产生有效的嵌入。

BERT（SBERT）：专门经过微调，用于生成适合相似性和聚类任务的句子级嵌入。

这些模型通常以自我监督的方式在大型语料库上进行训练，学习单词、短语和句子之间的上下文关系。

图像嵌入模型

对于图像，嵌入模型将视觉内容转换为矢量表示，这些矢量表示对对象存在、空间关系、纹理和样式进行编码。关键架构包括：

图像嵌入通过增强视图和编码器投影捕获视觉特征

CLIP（语言-图像预训练）： CLIP 经过图像-文本对的训练，将两种模态映射到共享嵌入空间，从而实现跨模态任务。

DINO 和 SimCLR：无需标记数据即可生成稳健视觉嵌入的自监督对比学习模型。

视觉转换器 (ViT)：将图像视为patch序列并应用基于转换器的注意力机制。

音频嵌入模型

音频嵌入模型处理波形或声谱图以创建捕捉语音、语言、情感或声学特征的表示。

音频嵌入从波形中捕获有意义的模式

Wav2Vec 2.0： Meta 的一种自监督模型，可以从原始音频中学习表示。

Whisper： OpenAI 的自动语音识别模型，其中间层可以作为嵌入。

CLAP（对比语言-音频预训练）：学习与语言描述一致的音频嵌入。

音频嵌入对于说话人识别、情绪检测和音频分类等任务至关重要。

视频嵌入模型

视频嵌入模型必须处理空间和时间维度。这些嵌入概括了运动、场景变化和动作。

视频嵌入将空间和时间特征编码为紧凑的表示形式

VideoBERT：采用 BERT 对视频和相关文本进行联合建模。

SlowFast 网络：结合慢速和快速路径来捕捉长期和短期运动动态。

TimeSformer 和 ViViT：基于 Transformer 的模型，以时间感知的方式处理视频帧。它使用纯 Transformer 架构进行视频分类。

这些模型通常将帧级视觉嵌入与序列模型相结合，以学习丰富的时间模式。

嵌入模型在弥合原始高维数据与结构化、机器可理解格式间的鸿沟方面，起着举足轻重的作用。

伴随人工智能系统的持续演进，更为复杂的多模态嵌入技术的进步，将在增强机器对各异输入形式的理解能力上扮演关键角色。