从半结构化网页中抽取知识

0 阅读1分钟

某机构是2020年信息与知识管理会议(CIKM)的银牌赞助商。会议期间,资深首席科学家Xin Luna Dong发表了关于从半结构化网络中抽取知识的主旨演讲。她解释说,任务是构建一个产品图谱,“以回答世界上关于产品及相关知识的任何问题”。

知识图谱已被用于支持广泛的应用,并增强搜索和问答系统,但我们常常遗漏长尾知识,包括不流行的实体、不流行的关系和不流行的垂直领域。Dong描述了某机构的AutoCeres封闭信息抽取系统,该系统将半结构化数据上全自动知识抽取的准确率从最先进水平的60%以上提升到了90%以上。她还介绍了OpenCeres,这是首个针对半结构化数据的开放信息抽取系统,能够识别现有本体库中尚未包含的新关系。最后,Dong的主旨演讲描述了某机构在本体对齐、实体链接、图谱挖掘和问答方面的其他努力,这些技术使得某机构能够利用抽取的知识来支持搜索和问答。FINISHED