bigdata

bigdata

bigdata

记录大数据成长过程中的笔记及感悟

暂无订阅共3篇文章创建于2022-05-05

1.介绍 1.1 概述 Flume 是一种分布式、可靠、可用的服务，用于高效收集、聚合和移动大量日志数据。它具有基于流式数据流的简单灵活的体系结构。它具有可调节的可靠性机制和许多故障转移和恢复机制，具

3年前
297
1
评论

Hive SQL 优化篇

Hive SQL的本质是将SQL语言映射到Hadoop分布式存储和计算框架上，将SQL语句转换成MapReduce程序进行执行，通常应用在海量数据的查询处理中，因此在使用中常常需要进行调优，以提高数据

3年前
633
点赞
评论

Spark用于大规模数据处理的统一分析引擎，基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量硬件之上，形成集群。

4年前
201
点赞
评论