7.langchain 入门到放弃(三) Text Splitters 列表
langchain 入门到放弃(三) Text Splitters 列表
加载文档后,通常希望将长文档分割成更小的块,以适合模型的上下文窗口。 LangChain 有许多内置的文档转换器,可以轻松地拆分、组合、过滤和以其他方式操作文档。
当处理长文本时,有必要将该文本分割成块。但这里存在很多潜在的复杂性。理想情况下,您希望将语义相关的文本片段保留在一起。 “语义相关”的含义可能取决于文本的类型。本笔记本展示了实现此目的的几种方法。
文本分割器的工作原理如下:
将文本分成小的、具有语义意义的块(通常是句子)。
开始将这些小块组合成一个更大的块,直到达到一定的大小(通过某些函数测量)。
一旦达到该大小,请将该块设为自己的文本片段,然后开始创建具有一些重叠的新文本块(以保持块之间的上下文)。
Name: Name of the text splitter
Classes: Classes that implement this text splitter
Splits On: How this text splitter splits text
Adds Metadata: Whether or not this text splitter adds metadata about where each chunk came from.
Description: Description of the splitter, including recommendation on when to use it.