简答:如何选择合适的 Embedding 模型?

151 阅读1分钟

MTEB 是什么?

HuggingFace 的 MTEB leaderboard 是一个一站式的文本 Embedding 模型榜。

平台默认的排名是综合得分,是基于每个任务/数据集的单独排名综合计算而来。通常你不能参考这个综合排名。

在功能上如何选择?

1. 查看特定任务下的排名。如 RAG 系统关心检索效果,只需要关心“Retrieval”任务下的排名。

2. 查看特定数据集下的排名。比如你是法律领域的 RAG 检索系统,你最好重点关注涉及法律相关的数据集的任务。

3. 如果是中文场景,还要关注是否支持多语言或者中文特供。

在性能上如何选择?

还要关注模型的内存要求、输出向量的维度、最大支持 Token 数。