中文分词

147 阅读1分钟

一 概念

● “词”这个概念一直是汉语言学界纠缠不清的问题,“词是什么”(词的抽象定义)和 “什么是词”(词的具体界定),这两个基本问题迄今为止也未能有一个明确的表达。

● 中文分词的难点在于汉语结构与印欧体系语种差异巨大,对词的构成边界方面很难界定。 在英语中,单词本身就是“词的表达”,一篇英文就是“单词”加分隔符来表示,在汉 语中,词以字为单位,但语义表达仍然是以词来划分的。

● 对于中文分词来说.分词并不是简单将其分为一个个的词语,更重要的是要把某句话划分为一个个可以独立表达的个体.

二 分词方法

● 基于字符串匹配的分词方法

● 基于理解的分词方法

● 基于统计的分词方法

基于统计的分词方法是在给定大量已经分词的文本的前提下,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。例如最大概率分词方法和最大熵分词方法等。随着大规模语料库的建立,统计机器学习方法的研究和发展,基于统计的中文分词方法渐渐称为了主流方法

常见模型:

N元文法模型(N-gram)

HMM

最大熵模型

条件随机场

神经网络模型

三 分词工具

● jieba

● 哈工大LTP

● NLPIR

● THULAC