持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第4天,点击查看活动详情
维特比算法不能解决OOV问题,词语级别的模型缺乏OOV召回能力,需要更细力度的模型——字符级模型。 字符级模型能够掌握汉字的组词规律,能够由字构词、动态识别新词汇,而不局限于词典。具体来说,只要将每个汉字组词时所处的位置作为标签,则中文分词就转成给定汉字序列找出标签序列的问题。由字构词是序列标注模型的一种应用,隐马尔科夫模型是最基础的一种。
序列标注问题
给定一个序列,找出序列中每个元素对应标签的问题,其中y所有可能的取值集合称为标注集
比如输入自然数序列1 2 3 4输出奇偶性,则标签序列为奇偶奇偶,标注集为{奇, 偶}
求解序列标注问题的模型为序列标注器,通常由模型从一个标注数据集{X, Y}学习相关知识在进行预测,在NLP中,x为字符或词语,y为待预测的组词角色或词性等标签。
经典的有BEMS模型(Begin、End、Middle、Single) ,简单不赘述。
隐马尔科夫模型
两个时序序列联合分布的概率模型:x序列外界可见,称为观测序列(显状态) ;y序列外界不可见,称为状态序列(隐状态) 。
HMM在MM的基础上理解,HMM满足以下两个条件
- 当前状态仅仅依赖于前一个状态
- 任意时刻的观测只依赖于该时刻的
说明:在联合概率中,和没有固定的前后关系,从贝叶斯定理来看可以进行等价变换
在确定完状态与观测之间的依赖关系后,HMM利用三个要素模拟时序序列发生过程:初始状态概率向量、状态转移概率矩阵和发射矩阵。