检索、分类、RAG，一个比一个狠之大语言模型Embedding的终极三件套！检索、分类、RAG，一个比一个狠之大语言模型

检索、分类、RAG，一个比一个狠之大语言模型Embedding的终极三件套！

在实际应用大语言模型（LLM）时，最核心也最常被忽视的部分之一就是它的“文本编码”（text embedding），即模型把一段自然语言转化为高维向量表示的能力。这个向量决定了下游任务（如分类、检索、聚类、问答等）的上限。【AI大模型教程】

因此，如何让LLM产生更适合具体任务的文本编码，成了学术界和工业界持续探索的方向。目前主流做法可以清晰地归纳为三种逐渐演进的技术路线。

不做任何微调

这是最原始也最省资源的方式。把文本喂给一个预训练好的LLM（比如Llama、Mistral、Grok等），直接取最后一层token的隐藏状态（通常是[CLS]或者序列平均池化）作为编码向量。这种做法的优点是零成本、零延迟，几乎所有现成的开源模型都能直接这样用。

但缺点同样明显：预训练目标（通常是next-token prediction）和下游任务的需求并不完全对齐，导致产生的编码在很多垂直领域或特定任务上表现平平，尤其在语义相似度判断、专业领域分类等场景中很容易出现“泛化有余，精度不足”的情况。

这也是为什么很多团队发现直接用开源LLM的embedding去做检索召回时，效果常常不如专门的双塔句向量模型（如Sentence-BERT、E5、GTE等）。

为特定任务微调编码头

当我们需要更高的精度时，最常见也最有效的做法是对LLM进行有监督微调（SFT），但微调的对象不是整个模型，而只是新增一个轻量的“编码头”（encoding head），同时让梯度回传到LLM本体。这种方式又可以细分为两种典型场景：

调整编码维度或做分类任务

比如我们希望把编码压缩到256维，或者直接做多分类。这时通常会在LLM后面接一个线性层（或MLP），把最后一层隐藏状态映射到目标维度或类别数上，用交叉熵损失训练。训练过程中，LLM本体参数也会被更新，但因为加了LoRA/QLoRA等参数高效微调技术，实际显存开销可以控制在可接受范围。

这种方式在情感分析、意图识别、主题分类等任务上能把准确率大幅拉升到接近CEILLM（Chat模型）的水平，同时保持了较小的编码维度和推理速度。

让编码具备更好的相似度度量能力

这是目前最流行的文本编码微调方式：用带标签的（query, positive, negative）三元组或（question, answer）对做对比学习，让正样本的编码余弦相似度接近1，负样本接近0。

典型代表就是Sentence-BERT在BERT上的实践，现在也被广泛迁移到Llama、Mixtral、Qwen等开源LLM上。微调后产生的编码，在MS MARCO、MIRACL、C-MTEB等检索和语义相似度榜单上往往能碾压原生LLM的隐藏状态。

专为RAG问答场景微调

随着RAG架构成为主流，业界又发展出了第三种更精细的微调范式：让LLM同时编码问题和候选答案段落，然后通过一个极轻量的Text Encoding Head（通常就是一个可学习的投影矩阵）把两者的隐藏状态映射到同一空间，再用余弦相似度或点积作为相关性分数，用InfoNCE或二元交叉熵损失进行训练。

这种做法和第二种对比学习看似相似，但关键区别在于：

• 训练数据更贴近真实RAG场景（通常是“问题 + 正确段落 + 若干硬负段落”）；

• 微调时问题和答案段落是分批次独立编码的（bi-encoder结构），推理时可以预先离线编码所有知识库文档，做到毫秒级检索；

只需要微调LLM的上半部分（或者只加LoRA），下半部分自回归头保持冻结，兼顾了检索精度和生成质量。

目前开源社区最强的RAG专用编码模型（如BGE-large、E5-mistral-7b-instruct、GritLM-7B等）基本都走的这条路，在BEIR、RGB、Narratives等零样本检索基准上已经大幅超越传统BM25+重排的流水线。

三种方式本质上是成本与效果的权衡：

• 如果你只是想快速验证想法，或者数据量极少，直接取原生LLM的最后一层隐藏状态就够了；

• 如果你有几千到几十万条标注数据，需要在特定领域或特定任务上达到SOTA，建议走第二种路线，用LoRA+对比学习/分类损失微调；

• 如果你最终的业务是RAG问答系统，且知识库规模在十万到百万级以上，强烈建议走第三种路线，训练一个专属的bi-encoder检索模型，性价比最高。

文本编码虽小，却决定了整个大模型应用的上限。选对微调策略，往往能用1%的算力换来10%的业务指标提升，这才是真正的“四两拨千斤”。