一概念

● “词”这个概念一直是汉语言学界纠缠不清的问题，“词是什么”（词的抽象定义）和 “什么是词”（词的具体界定），这两个基本问题迄今为止也未能有一个明确的表达。

● 中文分词的难点在于汉语结构与印欧体系语种差异巨大，对词的构成边界方面很难界定。在英语中，单词本身就是“词的表达”，一篇英文就是“单词”加分隔符来表示，在汉语中，词以字为单位，但语义表达仍然是以词来划分的。

● 对于中文分词来说.分词并不是简单将其分为一个个的词语,更重要的是要把某句话划分为一个个可以独立表达的个体.

二分词方法

● 基于字符串匹配的分词方法

● 基于理解的分词方法

● 基于统计的分词方法

基于统计的分词方法是在给定大量已经分词的文本的前提下，利用统计机器学习模型学习词语切分的规律（称为训练），从而实现对未知文本的切分。例如最大概率分词方法和最大熵分词方法等。随着大规模语料库的建立，统计机器学习方法的研究和发展，基于统计的中文分词方法渐渐称为了主流方法

常见模型：

N元文法模型（N-gram）

HMM

最大熵模型

条件随机场

神经网络模型

● jieba

● 哈工大LTP

● NLPIR

● THULAC