AI 大模型企业应用实战(09)-LangChain的示例选择器（Example Selector）## 1 根据长度动

本文已收录在Github，关注我，紧跟本系列专栏文章，咱们下篇再续！

🚀 魔都架构师 | 全网30W技术追随者
🔧 大厂分布式系统/数据中台实战专家
🏆 主导交易系统百万级流量调优 & 车联网平台架构
🧠 AIGC应用开发先行者 | 区块链落地实践者
🌍 以技术驱动创新，我们的征途是改变世界！
👉 实战干货：编程严选网

1 根据长度动态选择提示词示例组

1.1 案例

根据输入的提示词长度综合计算最终长度，智能截取或者添加提示词的示例。

 from langchain.prompts import PromptTemplate
 from langchain.prompts import FewShotPromptTemplate
 from langchain.prompts.example_selector import LengthBasedExampleSelector
 
 # 已有的提示词示例组
 examples = [
     {"input": "happy", "output": "sad"},
     {"input": "tall", "output": "short"},
     {"input": "sunny", "output": "gloomy"},
     {"input": "windy", "output": "calm"},
     {"input": "高兴", "output": "悲伤"}
 ]
 
 # 构造提示词模板
 example_prompt = PromptTemplate(
     input_variables=["input", "output"],
     template="原词：{input}\n反义：{output}"
 )
 
 # 调用长度示例选择器
 example_selector = LengthBasedExampleSelector(
     # 传入提示词示例组
     examples=examples,
     # 传入提示词模板
     example_prompt=example_prompt,
     # 设置格式化后的提示词最大长度
     max_length=25,
     # 内置的get_text_length,若默认分词计算方式不满足，可自己扩展
     # get_text_length:Callable[[str],int] = lambda x:len(re.split("\n| ",x))
 )
 
 # 使用小样本提示词模版来实现动态示例的调用
 dynamic_prompt = FewShotPromptTemplate(
     example_selector=example_selector,
     example_prompt=example_prompt,
     prefix="给出每个输入词的反义词",
     suffix="原词：{adjective}\n反义：",
     input_variables=["adjective"]
 )

 # 小样本获得所有示例
 print(dynamic_prompt.format(adjective="big"))
 
 给出每个输入词的反义词
 
 原词：happy
 反义：sad
 
 原词：tall
 反义：short
 
 原词：sunny
 反义：gloomy
 
 原词：windy
 反义：calm
 
 原词：高兴
 反义：悲伤
 
 原词：big
 反义：

 # 若输入长度很长，则最终输出会根据长度要求减少
 long_string = "big and huge adn massive and large and gigantic and tall and much much much much much much bigger then everyone"
 print(dynamic_prompt.format(adjective=long_string))
 
 给出每个输入词的反义词
 
 原词：happy
 反义：sad
 
 原词：tall
 反义：short
 
 原词：big and huge adn massive and large and gigantic and tall and much much much much much much bigger then everyone
 反义：

2 MMR与最大余弦相似度

信息检索中常用的方法，在相关性和多样性之间找到一个平衡。

2.1 工作流程

MMR先找出与输入最相似（即余弦相似度最大）的样本
然后在迭代添加样本的过程，对于和已选样本过于接近（即相似度过高）的样本进行惩罚

MMR既能确保选出样本与输入高度相关，又能保证选出的样本之间有足够多样性。

2.2 示例

使用MMR来检索相关示例，以使示例尽量符合输入：

 from langchain.prompts.example_selector import MaxMarginalRelevanceExampleSelector
 
 # LangChain 内置的向量数据库
 from langchain.vectorstores import FAISS
 from langchain.embeddings import OpenAIEmbeddings
 from langchain.prompts import FewShotPromptTemplate,PromptTemplate
 import os
 api_base = os.getenv("OPENAI_PROXY")
 api_key = os.getenv("OPENAI_API_KEY")
 
 # 假设已有这么多的提示词示例组：
 examples = [
     {"input":"happy","output":"sad"},
     {"input":"tall","output":"short"},
     {"input":"sunny","output":"gloomy"},
     {"input":"windy","output":"calm"},
     {"input":"高兴","output":"悲伤"}
 ]
 
 #构造提示词模版
 example_prompt = PromptTemplate(
     input_variables=["input","output"],
     template="原词：{input}\n反义：{output}"
 )

 ! pip install tiktoken
 ! pip install faiss-cpu

2.3 根据输入相似度选择示例

最大余弦相似度，常见的相似度计算方法。计算两个向量（在这里，向量可以代表文本、句子或词语）之间的余弦值来衡量它们的相似度。余弦值越接近1，表示两个向量越相似。主要关注的是如何准确衡量两个向量的相似度。

 # 使用最大余弦相似度来检索相关示例，以使示例尽量符合输入
 example_prompt = PromptTemplate(
     input_variables=["input", "output"],
     template="原词: {input}\n反义: {output}",
 )
 
 # Examples of a pretend task of creating antonyms.
 examples = [
     {"input": "happy", "output": "sad"},
     {"input": "tall", "output": "short"},
     {"input": "energetic", "output": "lethargic"},
     {"input": "sunny", "output": "gloomy"},
     {"input": "windy", "output": "calm"},
 ]

SemanticSimilarityExampleSelector

LangChain用于基于语义相似度动态选择示例的类。属于示例选择器（Example Selector）的一种，计算输入与预定义示例之间的语义相似度，智能选择最相关的示例注入到提示词。

核心原理：用向量嵌入（Embeddings）将文本转换为高维向量，再计算输入向量与示例向量之间的相似度（通常用余弦相似度）。相似度最高的示例会被优先选中，确保注入到提示词中的示例与当前输入最相关，从而提高语言模型的理解能力和生成质量。

常与向量数据库（如 FAISS、Chroma、Pinecone 等）协作。它会将所有示例的嵌入向量存储在这些向量数据库中，当需选择示例时，就查询数据库并返回相似度最高的 k 个示例。这比基于文本长度或随机选择更加智能和高效。

from_examples() 类方法创建实例。参数：示例列表、嵌入模型（如本地 Qwen 嵌入模型）以及向量存储类（如 FAISS 或 Chroma）。然后将这个选择器传递给 FewShotPromptTemplate，系统就会在生成提示词时根据输入的语义相似度动态选择最佳示例。

这种方法特别适合需要上下文感知的场景，如问答系统、代码生成、文本补全等，因为它能确保选中的示例与当前任务高度相关，而不是基于简单的启发式规则。

 ! pip install "chromadb>=0.4.0,<0.6.0"

 example_selector = SemanticSimilarityExampleSelector.from_examples(
     # 传入示例组.
     examples,
     # 使用openAI嵌入来做相似性搜索
     OpenAIEmbeddings(openai_api_key=api_key,openai_api_base=api_base),
     # 使用Chroma向量数据库来实现对相似结果的过程存储
     Chroma,
     # 结果条数
     k=1,
 )
 
 #使用小样本提示词模板
 similar_prompt = FewShotPromptTemplate(
     # 传入选择器和模板以及前缀后缀和输入变量
     example_selector=example_selector,
     example_prompt=example_prompt,
     prefix="给出每个输入词的反义词",
     suffix="原词: {adjective}\n反义:",
     input_variables=["adjective"],
 )

 # 输入一个形容感觉的词语，应该查找近似的 happy/sad 示例
 print(similar_prompt.format(adjective="worried"))
 
 给出每个输入词的反义词
 
 原词: happy
 反义: sad
 
 原词: worried
 反义: