一 概念
● “词”这个概念一直是汉语言学界纠缠不清的问题,“词是什么”(词的抽象定义)和 “什么是词”(词的具体界定),这两个基本问题迄今为止也未能有一个明确的表达。
● 中文分词的难点在于汉语结构与印欧体系语种差异巨大,对词的构成边界方面很难界定。 在英语中,单词本身就是“词的表达”,一篇英文就是“单词”加分隔符来表示,在汉 语中,词以字为单位,但语义表达仍然是以词来划分的。
● 对于中文分词来说.分词并不是简单将其分为一个个的词语,更重要的是要把某句话划分为一个个可以独立表达的个体.
二 分词方法
● 基于字符串匹配的分词方法
● 基于理解的分词方法
● 基于统计的分词方法
基于统计的分词方法是在给定大量已经分词的文本的前提下,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。例如最大概率分词方法和最大熵分词方法等。随着大规模语料库的建立,统计机器学习方法的研究和发展,基于统计的中文分词方法渐渐称为了主流方法
常见模型:
N元文法模型(N-gram)
HMM
最大熵模型
条件随机场
神经网络模型
三 分词工具
● jieba
● 哈工大LTP
● NLPIR
● THULAC