传统的数据库系统需要预设模式,并能回答用结构化查询语言(SQL)编写的具有明确语义的查询。准确地说,拥有结构化数据成为一个先决条件。因此,大量可用的非结构化数据仍处于闲置状态,如何利用这些数据仍是一个挑战。为了克服同样的问题,Facebook AI已经发布了NeuralDB--使机器能够搜索非结构化数据集。该查询处理技术建立在最先进的NLP方法上,并承诺比传统数据库有几个好处,包括。
- 首先,该系统没有预定义的模式,因此不需要事先定义数据库的范围,任何相关的数据都可以被存储和查询。
- 第二,它为用户简化了流程,允许他们以各种自然语言形式提出更新和查询。
- 第三,NeuralDB是基于一个预先训练好的语言模型,已经加载了很多知识。
提出的模型
包括詹姆斯-索恩、马吉德-亚兹达尼、马齐耶-萨伊迪、法布里奇奥-西尔维斯特里、塞巴斯蒂安-里德尔和阿隆-哈雷维在内的Facebook人工智能研究人员提出了该模型。
论文中提出的架构展示了对变换器模型的调整,以回答简单自然语言的查询。然而,这些模型在聚合查询上未能表现良好,并有可扩展性问题。克服这些限制,研究人员并行地运行了一个神经SPJ运算器的多个实例。这种架构的基础是一种新颖的算法,用于生成小套的数据库句子,并将其输送给每个神经SPJ运算器。以下是NeuralDB架构的概述。
图片来源。论文
原子型和复合型是两种类型的句子。例如,考虑到'Richard喜欢飞行'是一个原子句子(对应于单个事实的句子)。另一方面,'Radhika嫁给了Krish,他们有三个孩子'(对应于多个事实的句子)是一个复合句。正如研究人员所描述的那样,该论文的重点主要是在原子句子上。"NeuralDB架构的设计是基于对当前NLP转化器模型的优势和劣势的仔细研究。我们的实验结果表明,对于涉及选择、投射、连接的一类查询,有可能达到非常高的准确性,"研究人员总结道。
在这里阅读该论文。
为什么非结构化数据很重要
到目前为止,将非结构化数据如照片、视频文件、音频文件、社交媒体网站、演示文稿、通话记录或成绩单存储在传统的行-列数据库中,或作为微软Excel中的电子表格,是具有挑战性的;因此,对公司来说是一种头痛。此外,根据行业报告,到2025年,全球数据生成量预计将从2020年的64.2兆字节达到180兆字节以上,从而实现180%以上的增长。非结构化数据占企业产生和收集的数据的80%至90%,而且其数量正在持续增加--比结构化数据库的速度快几倍。它们的许多用例都存在,包括。
- 消费者分析。公司采用人工智能从各种来源的非结构化数据中发现趋势,如呼叫中心记录、在线产品评价、聊天机器人对话和社交媒体提及的内容,以做出快速决策,改善客户关系。
- 营销情报。决策者可以通过迅速扫描大型数据集和寻找客户行为模式,了解什么产品或服务对其目标市场最有吸引力。这对产品开发以及确定哪些营销活动是最有效的非常有用。
非结构化数据的稀缺性并不是问题所在;相反,问题在于缺乏工具和技术来从这个庞大的数字资源库中产生有价值的商业洞察力。用于分析这些和其他非结构化来源的新工具现在已经可以使用。在人工智能和机器学习的支持下,这些平台以近乎实时的方式运作,包括。
总而言之,组织应该从数据孤岛甚至数据湖的存储模式中转移出来,以充分收获非结构化数据和人工智能之间的联姻。
The postIs Facebook Latest NeuralDB An Advancement Over Conventional Database Modelsappeared first onAnalytics India Magazine.