中医领域专利文本相似度计算

367 阅读1分钟

文本相似度计算一直是自然语言处理任务的难点,尤其是在垂直领域。为了解决中医药领域专利文本相似度计算问题,我们提了出Segment-KBERT模型,该模型解决BERT模型字数的限制,同时引入知识图谱,这样模型就可以提取出专利文本的更多的特征信息,从而计算专利文本间的相似度,得到的专利相似度数据用于辅助专利推荐或者检索。

Segment-KBERT模型架构

image.png

K-BERT模型架构

image.png

数据集

我们的数据来源于中医领域专利数据库中,每篇中医专利由标题、摘要、权利要求和说明书组成。我们整理构建了一个专利相似度计算任务的数据集,包含43603条数据。每条数据由2篇专利文本和标签组成。

image.png

知识图谱

OurKG是我们构建的中医药知识图谱。我们使用人工采集结合机器自动采集来提取领域命名实体(如:功效作用、中药异名、性味归经等相关的实体),提取的三元组与我们的中医专利数据高度相关,一共包含96138个三元组。

image.png

实验结果

DatasetModelKgAcc.
Tcm(spe1+spe2+spe3) Segment-KBETOurKG77.80
Tcm(abs+spe1+spe2)Segment-KBEROurKG76.07
Tcm(abs+spe1+spe3)Segment-KBEROurKG79.20

note:选取3个segment输入到模型中,共享模型参数,abs表示专利的摘要段落,spe1表示专利说明书的首段,spe2表示说明书的中间段,spe3表示说明书的尾段。