7.langchain 入门到放弃(三) Text Splitters 列表

96 阅读1分钟

7.langchain 入门到放弃(三) Text Splitters 列表

  langchain 入门到放弃(三) Text Splitters 列表

  加载文档后,通常希望将长文档分割成更小的块,以适合模型的上下文窗口。 LangChain 有许多内置的文档转换器,可以轻松地拆分、组合、过滤和以其他方式操作文档。

  当处理长文本时,有必要将该文本分割成块。但这里存在很多潜在的复杂性。理想情况下,您希望将语义相关的文本片段保留在一起。 “语义相关”的含义可能取决于文本的类型。本笔记本展示了实现此目的的几种方法。

  文本分割器的工作原理如下:

  将文本分成小的、具有语义意义的块(通常是句子)。

  开始将这些小块组合成一个更大的块,直到达到一定的大小(通过某些函数测量)。

  一旦达到该大小,请将该块设为自己的文本片段,然后开始创建具有一些重叠的新文本块(以保持块之间的上下文)。

  Name: Name of the text splitter

  Classes: Classes that implement this text splitter

  Splits On: How this text splitter splits text

  Adds Metadata: Whether or not this text splitter adds metadata about where each chunk came from.

  Description: Description of the splitter, including recommendation on when to use it.

image