【译】为什么大数据也应该是智能的

110 阅读5分钟

为什么大数据也应该是智能的

在这篇文章中,看看为什么大数据也应该是智能数据,看看为什么它不总是有用的。

起初,许多数据科学家和相关专业的专家对大数据非常热情。几年后,他们中的大多数人变得更加怀疑,大数据本身变成了一个时髦的词。为什么大数据本身不是一个价值,为什么即使是必要数据的质量也比数量更重要?

大数据并不总是有用的

很多时候,大数据被认为是一种宝藏,一种有价值的资源,它使创建有效的策略、优化流程等成为可能。然而,分析师变得越有经验,他们问的问题就越具体。我们到底能从这些数据中学到什么?我们现在需要这些信息吗?如果我们现在不需要它,存储数据要花多少钱?

使用大数据需要相当大的计算能力。随着云存储的发展,计算能力变得更加实惠,但它的维护仍然需要资源。同样的数据对一家公司来说可能非常有价值,对另一家公司来说完全无用。而在后一种情况下,它只会变成一种负债。为了避免这一点,甚至在收集并将其发送到存储库之前就有必要分析其有用性。

世界上绝大多数的大数据目前都是垃圾。这些数据要么对那些目前拥有它的人来说完全无用,要么它包含的有用信息太少,甚至’覆盖其处理成本。根据弗雷斯特的一项研究,公司实际上使用的数据不超过他们收集的数据的40%。

越大并不总是越好

“只是向人工智能投入尽可能多的数据”策略不再奏效。数据科学家明白,不是每个功能都是有用的,数据的质量比数量更重要。只需要有助于分析给定时刻什么是重要的数据。只有通过使用高质量的数据,人工智能才能给出有用的结果。

与数据本身一起,需要基础设施来安全地分析、使用和传输数据,并分离有用的信息和垃圾。不是每个人都意识到这一点,但数据不仅要大,还要聪明。

为什么数据应该是智能的

大数据有五个关键参数:

  • 成交量

  • 速度

  • 品种,品种

  • 真实性

  • 价值;价值

数据的价值并不总是取决于它的体积或速度,但它确实会影响其他参数。如果数据不是各种各样的,不是真实的,目前也没有价值,收集它就没有意义了。

Wired门户对智能数据的定义如下:

“智能数据”意味着真正有意义的信息。这是看到一长串涉及每周销售额的数字与识别销量随时间的波峰和波谷的区别。

在实践中,智能数据是一种数据,可以在给定的时刻使用,以满足公司的特定需求。智能数据也是大数据中用于演示和决策的部分。

为什么非智能数据是无用的,甚至是破坏性的

想象一下,两位数据科学家正在他们工作的公司中致力于大数据和机器学习工具的实施,但他们选择了不同的方法。其中一人使用现成的工具来节省时间,并立即开始收集数据。这位专家将他们收集的一切转移到数据基础设施中,并使用ML算法来优化结果。

第二个专家想要更多地控制数据结构,所以他们开始编写他们的模块。这需要很多时间,但最终,专家会收到更紧凑和准确的数据。该公司通过不存储万亿字节的不必要信息节省了数千美元,但仍然拥有与雇佣前专家的公司一样多的有用数据。这笔钱可以再投资于创建新的模块,以获得更好的结果。

公司已经在努力组织这个过程,以减少不必要数据的收集,但他们的算法仍然在处理大量垃圾。没有有用的内容,数据仍然是一个负债,需要额外的资源来处理。专注于智能数据可能是解决方案,但这仅仅是向正确数据技术过渡的开始。

安徒生数据科学主管詹·丘布科夫:

专业人士即将得出合理而合乎逻辑的结论,即大数据只是一个吞噬金钱、带来低回报的流行语。因此,在建立数据湖和数据仓库之前,有必要弄清楚这些东西必须解决的业务问题,以便数据不仅大,而且可靠和智能。收集数据本身不是目标;目标是从这些数据中赚钱,同时降低运营成本和最大限度地减少“仓库”(数据存储)。

主题:

大数据,智能数据,数据科学家,人工智能