这是我参与11月更文挑战的第9天,活动详情查看:2021最后一次更文挑战。
知识图谱的智能学习
地质数据知识图的构建包括知识提取和知识管理两个逻辑组成部分。前者主要通过无监督处理来学习相应的地质知识,包括分词、频率统计、网络爬虫、关键词提取、关系提取五个步骤。后者主要由知识图的存储和检索两部分组成。
(一)知识提取
知识提取是知识图谱构建的关键环节,也是地质文献处理的关键环节。本文通过一种基于开源的无监督知识学习方法,通过对大量地质文献的自动学习,形成地质领域词汇和知识图。知识抽取流程如下图所示:
知识提取包括数据源分析、实体/概念抽取和关系抽取三个主要步骤:
1.数据源的分析
尽管百科全书的内容以网页的形式存在,但仍然存在许多结构化信息。由于所有百科全书都有自己的分类系统,因此类别标签用于组织大量条目。 通常,每个条目都有类别标签,可用于标记自己的类型。 此外,大多数条目都有多个标签。 例如,“史蒂夫·乔布斯”的类别标签可以是“ 20世纪的美国商人”,“美国亿万富翁”,“美国计算机商人”以及维基百科中的许多其他标签。 论文《Intelligent Learning for Knowledge Graph towards Geological Data》主要关注互联网百科全书中的中文信息。Wikipedia被认为是Internet上最大,最受欢迎的一般参考书。 但是,维基百科中的中文内容并不完美。 一方面,维基百科中的条目总数不足。 并且,维基百科中的文章的内容也相对简短,并且它们的某些部分是直接从其他语言翻译而来,而这些语言却缺乏中文的确切表达。 因此,在本文中,我们使用Baike.com而不是Wikipedia作为的数据源进行数据爬取。
2.实体/概念抽取
实体/概念提取主要从这两个数据源开始。 通过将文本处理后的信息与Baike.com的类别标签相结合,我们可以直接过滤出实体或地质概念。 因此,实体/概念提取包括四个自下而上的步骤:分词,频率统计,网络爬虫和关键字提取。
HanLP技术可用于分词,过滤停止词和频率统计。本文以TextRank算法为动力,对分词进行了如下介绍。 首先,我们使用HanLP标准令牌生成器来处理文档,这些文档分为语音词的不同部分。 其次,设计了自定义数据字典和扩展停止列表。 最后,通过TextRank算法过滤掉与检索内容无关的单词,只保留指定的词性;同时,还过滤掉停用词,以达到关键词提取的效果。
在网络爬虫方面,我们主要考虑通过自动工具Selenium来爬取Internet百科全书中条目的类别标签,该工具可以打开HtmlUnit浏览器,搜索条目,并通过自定义编程来访问类标签信息。 具体地,在线百科全书爬虫的方法如下:当我们想要获取有关单词“𝑛”的信息时,我们应该首先打开浏览器。然后,搜索并打开“𝑛”的百科全书界面,最后通过XPath找到并保存类别标签元素。
**在关键词提取方面,根据地质词典和类别标签,我们可以准确地确定分割结果中的词是否属于地质关键词。**通过维基百科类别标签的统计特征,我们提取了一些关键词,包括地理、矿业、海洋、岩石、水文、环境、自然灾害、生物、城市、空气、石油、道路、植物、能源、冶金、土木。我们将所有已爬取的类别标签放入地图集合中。通过调用map的containsKey方法,我们可以确定采集的对象是否包含关键字,如果答案是肯定的,这个对象被定义为一个地质实体。
3.关系抽取
关联规则的基本原理是,如果两个概念或实体经常出现在同一单元(例如文档,段落或句子)中,我们可以确信它们之间存在某种关系。 我们不在乎两个概念之间的特定语义关系,而是在它们之间的相关程度。 因此,通过文档中的共现分析来判断两个概念之间的相关程度更为重要。 随着处理的文档数量的增加,如果两个概念频繁出现在一起,则相关度会更高。 这种方法还受到人类阅读和学习过程的激励。但是,该方法仅适用于处理大量文档。 当文档数较少时,此方法效率不高。
与此同时,爬取网络百科全书的目的是通过利用在线百科全书中的开放数据源来获取概念和实体之间的关系。 如上所述,这里我们主要考虑类别关系。
利用以上两种方法,我们的关系抽取规则如下:在关联度方面,我们为每个概念设置一个关联度𝑅,其中𝑅的初始值为0。在处理文档后,文档中出现的所有单词之间的相关性增加1。𝑅的值在每次处理文档的过程中更新一次。此外,每个概念都有类别标签作为属性。