BGE

2024-11-15 166 阅读1分钟

前言

Foundation Model有两个代表，一个是 Large Language Model，另一个是 Embedding Model。
前者聚焦文本空间，其形式化功能为text -> text；后者聚焦向量空间，其功能为text -> embedding。转为向量能做些什么呢？比较常见的使用场景包括retrieval（如检索知识库、检索Tool）、clustering（聚类）、classification（分类）等。
在中文世界，智源研究院的 BGE 是比较有名的开源 embedding model

方法论

BGE从两个方面来达成这个目标：
- 数据方面，兼顾scale、diversity、quality这三个维度，这是通用embedding模型能训练出来的前提；
- 训练策略方面，论文使用3阶段训练策略，从pre-training 到 general-purpose fine-tuning 再到 task-specific fine-tuning；前两个阶段是保证通用性的基石，最后一个阶段则在保持通用的基础上，进一步精进下游任务的效果。

数据方面

模型方面

训练方面

pre-training 阶段在 Wudao Corpora上进行，此阶段未在任何pair数据上训练，其目标是训练出更适合embedding任务的pre-trained model。

general-purpose fine-tuning阶段在C-MTP(unlabeled)上进行，该阶段在100M的text pairs上训练，可以视作一种大规模的弱监督学习过程，可初步学习出通用embedding model。

task-specific fine-tuning阶段，在C-MTP(labeled)上进行，通过在少而精的下游任务labeled data上微调，在保证通用性的同时，强化模型在具体任务上的表现。