中 医 自 然 语 言 处 理 研 究 方 法 综 述

998 阅读3分钟

这篇文章简要介绍了自然语言处理在中医学中的应用,通过对相关文献的研究分析,阐述关联规则挖掘、聚类分析、信息抽取、机器学习等方法的特点与应用方向。总结构建中医知识网络的相关方法,基于构建知识网络的方法提出未来中医自然语言处理研究的新思路。

通过NLP辅助完成汇总中医知识的过程,将知识提炼出来,提取其中有用的诊疗信息,最终形成知识本体或者知识网络,从而为后续的各种文本挖掘任务提供标准和便利。NLP的任务主要包括信息抽取、机器翻译、情感分析、摘要提取等,所用到的技术包括命名体识别、语义消歧、指代消解、词性标注、结构分析等。大量医学文本资料含有的病史、诊断、治疗方法、药物等名词,给NLP的应用提供了可能性。利用NLP技术将隐藏在文本中的知识挖掘出来,对医学的发展具有重要意义。一些医学本体数据库逐渐建立起来,如一体化医学信息系统、临床医学术语等。

中医学中应用的NLP方法:1、关联规则挖掘;2、聚类分析;3、信息抽取;4、机器学习。

构建中医知识网络的方法:1、基于规则推理的知识网络;2、基于概率统计的知识网络。

总结:NLP在中医学研究过程中式非常有效的工具,通过信息抽取、量化分析,将中医文本知识转化为结构化数据,通过聚类分析和机器学习方法对结构化的数据进一步分析挖掘,可以完成对中医知识的总结整理,进一步有可能发现新的知识。

未来发展趋势:未来对中医自然语言处理的研究有两条明确的路可走。

1、语义理解,即选取具体的问题,在局部范围内理解文本中的知识,将其以结构化的方式展示出来,最后利用一些数据分析或者机器学习方法对结构化的信息加以处理,给出具体的解决思路。

2、概率统计,网络中文本科的增加使得概率统计NLP被广泛试用,词向量就是概率统计NLP的产物之一,虽然忽略了上下文的含义,但是通过大量文本的挖掘,可使知识逐渐浮现出来,这一点与大数据研究的思维完全相符。然而,词向量接应用于医药文本得到的准确率始终不高,以医学本体为评价标准,正确率都比较低。因此,将概率统计的方法与本体知识结合才是最优的解决方法。通过本体和词向量构建中医领域知识网络,将进一步对中医领域的知识做一总体的整理,挖掘中医概念之间的关系,为中医诊疗提供更为实用的信息;如果能够大力开展该方向的课题研究,结合当前热门的大数据挖掘相关方法,最终能引发中医历史性的革命,使得中医迅速并且持续发展壮大。