如何用NLP将文本拆分成句子NLP——可在任何语言中分割自由文本数据将文本转化为句子的语言不可知模型将文本数据分割成

NLP——可在任何语言中分割自由文本数据

将文本转化为句子的语言不可知模型

将文本数据分割成句子可以说是一项简单的任务，文本可以通过'.'或'/n'字符分割成句子。然而，在自由文本数据中，这种模式并不一致，作者可以在句子中间断开一行，或者在错误的地方使用"."。这种现象在医疗访问摘要文本和对话/消息文本中很常见，例如。

为了克服这个问题，并为了开发一个可用于任何语言的通用模型，我们将在这篇文章中分享一个深度学习模型，以决定两个句子是否需要合并。

首先，我们将按照所有常见的字符来分割文本，例如'.'和'/n'，然后给定两个句子，模型将决定它们是否必须合并。因此，该模型将给我们一个新的文本分句子的划分。

创建数据集

为了创建用于训练的数据集，考虑一个文章/案例/对话的列表，例如，来自维基百科的文章列表。我们将把正向对定义为一对应该被分割的句子，并保持两个不同的句子，在它们之间有"."。负数对是一对应该被合并的句子，并被视为一个句子，它们之间没有"."。我们将使用_nltk.send_tokenize_ 函数来创建正数对，用'.'来分割文本，这在大多数情况下都是真实的，并且会让模型学习'.'字符的机制和作用。我们将通过在中间分割句子来创建负数对，这意味着我们实际上不想分割句子。我们使用_min_sentence_length_for_splitting_ 参数来定义我们希望为负数对分割的最小句子长度（我们不希望分割太短的句子）。一个创建数据集的代码示例。

medium.com/media/78baa…

正面对的例子。