【基础知识】大数据概述

59 阅读1分钟

关键词—分布式

化整为零,再化零为整

大数据的定义

传统数据库处理起来困难的数据集。

发展历程

大数据发展史.png

中国开源生态图谱2023

image.png

参考内容

中国开源生态图谱 2023.pdf

技术组件说明

数据集成

sqoop、dataX、flume

数据存储

hdfs、kafka

数据处理

mapreduce、hive、impala、spark、flink

数据分析

hbase、mysql、greenplum(postgreSQL)、clickhouse

应用场景

数据分析——决策。

大数据是一种解决方案,但不一定是最高效的方案。