这是我参与「第四届青训营」笔记创作活动的第7天

1. 大数据与OLAP系统的演进

1.1 什么是大数据

大数据 = 大规模的数据量? 关于大数据这里我们参考马丁·希尔伯特的总结:大数据基实是在2000年后，因为信息化的快速发展。信息交换、信息存储、信息处理三个方面能力的大幅增长而产生的数据。

对业务数据执行多维分析，并提供复杂计算，趋势分析和复杂数据建模的能力。是许多商务智能(BI)应用程序背后的技术。

Presto是Facebook开源的查询分析引擎，在国内京东用的比较成熟。Presto数据处理能力到达PB级别，支持查询数据源有Hive、Kafka、Cassandra、Redis、Mongodb、SQL server等，在工作应用当中，Presto的查询性能比Hive要高40%以上。

多租户任务的管理与调度：它支持并发执行数百个内存、I/O 以及 CPU 密集型的负载查询，并支持集群规模扩展到上千个节点；
多数据源联邦查询：它可以由开发者利用开放接口自定义开发针对不同数据源的连接器（Connector),从而支持跨多种不同数据源的联邦数据查询；
支持内存化计算：把计算嵌入到内存里面去，内存变成存储+计算的利器，在存储/读取数据的同时完成运算，减少了计算过程中的数据存取的耗费。把计算都转化为带权重加和计算，把权重存在内存单元中，让内存单元具备计算能力。
pipeline式数据处理：将许多算法模型串联起来，然后依次对数据进行处理，得到最终的分类结果。

【大数据专场学习资料三】第四届字节跳动青训营 - 掘金 (juejin.cn)

Big data - Wikipedia