langchain示例选择器根据长度要求智能选择示例根据输入相似度选择示例(最大边际相关性) MMR是一种在信息检索中

根据长度要求智能选择示例

# 根据输入的提示词长度综合计算最终长度，智能截取或者添加提示词的示例

from langchain_core.prompts import PromptTemplate
from langchain_core.prompts import FewShotPromptTemplate
from langchain_core.example_selectors import LengthBasedExampleSelector

# 假设已经有这么多的提示词示例组：
examples = [
    {"input": "happy", "output": "sad"},
    {"input": "tall", "output": "short"},
    {"input": "sunny", "output": "gloomy"},
    {"input": "windy", "output": "calm"},
    {"input": "高兴", "output": "悲伤"}
]

# 构造提示词模板
example_prompt = PromptTemplate(
    input_variables=["input", "output"],
    template="原词：{input}\n反义：{output}"
)

# 调用长度示例选择器
example_selector = LengthBasedExampleSelector(
    # 传入提示词示例组
    examples=examples,
    # 传入提示词模板
    example_prompt=example_prompt,
    # 设置格式化后的提示词最大长度
    max_length=25,
    # 内置的get_text_length,如果默认分词计算方式不满足，可以自己扩展
    # get_text_length:Callable[[str],int] = lambda x:len(re.split("\n| ",x))
)

# 使用小样本提示词模版来实现动态示例的调用
dynamic_prompt = FewShotPromptTemplate(
    example_selector=example_selector,
    example_prompt=example_prompt,
    prefix="给出每个输入词的反义词",
    suffix="原词：{adjective}\n反义：",
    input_variables=["adjective"]
)
# 小样本获得所有示例
print(dynamic_prompt.format(adjective="big"))

给出每个输入词的反义词

原词：happy
反义：sad

原词：tall
反义：short

原词：sunny
反义：gloomy

原词：windy
反义：calm

原词：高兴
反义：悲伤

原词：big
反义：

根据输入相似度选择示例(最大边际相关性)

MMR是一种在信息检索中常用的方法，它的目标是在相关性和多样性之间找到一个平衡
MMR会首先找出与输入最相似（即余弦相似度最大）的样本
然后在迭代添加样本的过程中，对于与已选择样本过于接近（即相似度过高）的样本进行惩罚
MMR既能确保选出的样本与输入高度相关，又能保证选出的样本之间有足够的多样性
关注如何在相关性和多样性之间找到一个平衡

from langchain_core.example_selectors import MaxMarginalRelevanceExampleSelector
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings
from langchain_core.prompts import FewShotPromptTemplate, PromptTemplate


# 假设已经有这么多的提示词示例组：
examples = [
    {"input": "happy", "output": "sad"},
    {"input": "tall", "output": "short"},
    {"input": "sunny", "output": "gloomy"},
    {"input": "windy", "output": "calm"},
    {"input": "高兴", "output": "悲伤"}
]

# 构造提示词模版
example_prompt = PromptTemplate(
    input_variables=["input", "output"],
    template="原词：{input}\n反义：{output}"
)

# 调用MMR  根据输入相似度选择示例(最大边际相关性)
example_selector = MaxMarginalRelevanceExampleSelector.from_examples(
    # 传入示例组
    examples,
    # 使用openai的嵌入来做相似性搜索
    OpenAIEmbeddings(),
    # 设置使用的向量数据库是什么
    FAISS,
    # 结果条数
    k=3,
)

# 使用小样本模版
mmr_prompt = FewShotPromptTemplate(
    example_selector=example_selector,
    example_prompt=example_prompt,
    prefix="给出每个输入词的反义词",
    suffix="原词：{adjective}\n反义：",
    input_variables=["adjective"]
)

# 当我们输入一个描述情绪的词语的时候，应该选择同样是描述情绪的一对示例组来填充提示词模版
print(mmr_prompt.format(adjective="难过"))

根据输入相似度选择示例(最大余弦相似度)

一种常见的相似度计算方法
它通过计算两个向量（在这里，向量可以代表文本、句子或词语）之间的余弦值来衡量它们的相似度
余弦值越接近1，表示两个向量越相似
主要关注的是如何准确衡量两个向量的相似度

from langchain_core.example_selectors import SemanticSimilarityExampleSelector
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings
from langchain_core.prompts import FewShotPromptTemplate, PromptTemplate


# 假设已经有这么多的提示词示例组：
examples = [
    {"input": "happy", "output": "sad"},
    {"input": "tall", "output": "short"},
    {"input": "sunny", "output": "gloomy"},
    {"input": "windy", "output": "calm"},
    {"input": "高兴", "output": "悲伤"}
]

# 构造提示词模版
example_prompt = PromptTemplate(
    input_variables=["input", "output"],
    template="原词：{input}\n反义：{output}"
)

# 调用MMR  根据输入相似度选择示例(最大边际相关性)
example_selector = SemanticSimilarityExampleSelector.from_examples(
    # 传入示例组
    examples,
    # 使用openai的嵌入来做相似性搜索
    OpenAIEmbeddings(),
    # 设置使用的向量数据库是什么
    FAISS,
    # 结果条数
    k=1,
)
#使用小样本提示词模板
similar_prompt = FewShotPromptTemplate(
    example_selector=example_selector,
    example_prompt=example_prompt,
    prefix="给出每个输入词的反义词",
    suffix="原词：{adjective}\n反义：",
    input_variables=["adjective"]
)

# 输入一个形容感觉的词语，应该查找近似的 happy/sad 示例
print(similar_prompt.format(adjective="worried"))