RAG拉满-上下文embedding与大模型cache无论怎么选择RAG的切分方案，切分都不准确。补充上下文的embed

无论怎么选择RAG的切分方案，切分都不准确。

最近，anthropics给出了补充上下文的embedding的方案，RAG有了新的进展和突破[1]。

一、RAG存在的问题

比如有西游记这本书中（第一回惊天地美猴王出世），一个文档的chunk拆分如下：

“师兄们见了，鼓着掌称赞他。”

很难知道更多关于这个chunk的基本信息，它的上下文不够清晰，那很难让LLM总结得到更准确的总结和回答。

二、上下文embedding

假设根据所属的文档，补充完善这个chunk的上下文信息，就变成这样的chunk：

”孙悟空在菩提祖师门下学成七十二般变化和筋斗云后，展示给师兄们看，变出一棵大树，师兄们对此表示赞赏。“

这样，一个chunk的上下文信息就变得更加完整了。

使用这样的chunk信息，可以让LLM得到更准确的回答。

提示语：

<document>
	{原始文档}
</document>
	  
你的任务是改写一下这个chunk：提供一个简短的上下文补充完整chunk在整个文档中的含义，以便改进chunk的搜索检索。 只回答简洁的上下文，不要回答其他内容。
 以下是文档中我们想要的部分chunk。
<chunk>
	{当前chunk}
</chunk>

使用deepseek的测试结果如下[3][4]：

Pasted image 20241014153810.png

三、大模型Cache

通过字数统计来看，如果每一个chunk都需要传入整个文档，则费用是巨大的。整个文档（西游记第一回）的字数统计如下：

Pasted image 20241014154059.png 那为什么要使用DeepSeek？从能力的各个方面看，deepseek表现的都很好[6]。除此之外有一个更大的优点--价格便宜。

Pasted image 20241014155142.png

除了普通的输入输出价格之外，deepseek提出了一个缓存价格的概念：如果你传入给模型的前缀内容是相同的，则会命中缓存。命中缓存的费用降低了10倍。

Pasted image 20241015085621.png

只要前缀相同，就会命中缓存[8]（以下是官方文档中的事例代码）：

Pasted image 20241015090101.png 上图中我划线的部分都是缓存命中的。

再回到我们补充chunk上下文的案例，提示语如下：

<document>
	{原始文档}
</document>
	  
你的任务是改写一下这个chunk：提供一个简短的上下文补充完整chunk在整个文档中的含义，以便改进chunk的搜索检索。 只回答简洁的上下文，不要回答其他内容。
 以下是文档中我们想要的部分chunk。
<chunk>
	{当前chunk}
</chunk>

原始文档部分以及提示语部分都是一致的，只有如下片段是缓存不命中的：

	{当前chunk}
</chunk>

这样，我们的费用就大大降低了，通过大模型补充chunk的上下文就成为了可能。

感谢deepseek的创新和实现[9]，让模型的使用变得便宜，让我们可以从更多的场景去探索和尝试。

四、写在最后

补充完善chunk上下文这个方案在之前来做是不可能的，因为一个文档要重复让模型进行读取，这个费用太高了。

从豆包的首次降价，到百度的免费模型，到智谱的免费模型，再到各种本地构建的ollama免费模型

随着模型的普及，价格变的便宜，大胆的尝试它与场景的结合就成为了可能。

所以，未来的模型使用，要更多的考虑场景，而不是价格。

附上测评报告：

从最基础的向量查询，到上下文embedding，再到rerank的测试准确度都有了明显的改善，测试结果数据如下[2]：

（备注：Pass@k 检查每个查询检索到的前 k 个文档中是否存在“最佳文档”）

Pasted image 20241014163943.png

（智谱清言[7]绘制的图）

参考文献：

[1] The best RAG’s technique yet? Anthropic’s Contextual Retrieval and Hybrid Search：levelup.gitconnected.com/the-best-ra…
[2] anthropic-cookbook例子： github.com/anthropics/…
[3] deepseek访问页面： chat.deepseek.com/
[4]西游记白话文： github.com/gugug/pyltp…
[5]在线字数统计： www.eteste.com/
[6]中文模型测评排行榜：github.com/jeinlee1991…
[7]智谱清言: chatglm.cn/main/alltoo…
[8]deepseek文档-缓存策略： api-docs.deepseek.com/zh-cn/guide…
[9]deepseek的MLA缓存实现:blog.csdn.net/yutianzuiji…