大数据技术

大数据技术

大数据技术

主要以Hadoop体系和Spark体系为主，主流的大数据技术框架都会涉及，其中Hadoop体系只会涉及到入门知识，由于笔者主修 Spark，故Spark体系会涉及到更底层。

等 27 人订阅共45篇文章创建于2021-07-21

ClickHouse 是什么？ClickHouse 有哪些特性？

看了这篇文章，新手都说好——《ClickHouse 是什么？ClickHouse 有哪些特性？》用最简单的语言带你入门 ClickHouse~

4年前
6.6k
2
评论

ClickHouse 是什么？ClickHouse 有哪些特性？

一篇文章搞懂 Apache Kylin 的技术架构

Apache Kylin 4.x 版本的技术架构是怎样的？结合图文详解 Apache Kylin 4.x 版本的技术架构

4年前
2.1k
3
评论

一篇文章搞懂 Apache Kylin 的技术架构

一篇文章入门 Elasticsearch 查询

还在为 Elasticsearch 的查询发愁吗？一篇文章就能入门 Elasticsearch 查询！新手的最佳选择，干货满满

4年前
627
2
评论

Elasticsearch 怎么安装部署？

Elasticsearch 怎么安装部署？Elasticsearch 启动时如果遇到问题该如何应对？

4年前
787
3
评论

大数据技术框架有哪些类型？大数据技术栈包括哪些框架？

大数据技术框架有哪些类型？大数据技术栈包括哪些框架？大数据处理的不同环节都将面临不同程度的挑战，具有有哪些挑战呢？

4年前
1.3k
点赞
评论

Flink 的系统架构是怎样的？

Apache Flink 的系统架构是怎样的？作为一个 Flink新人，该怎样快速入门 Flink的架构？

4年前
699
1
评论

Flume 是怎么保障可靠性的？

Apache Flume 是怎么保障可靠性的？Apache Flume中的负载均衡和故障转移又是怎么一回事？

4年前
845
1
评论

一篇文章搞懂 Flume 的架构设计

怎样理解 Apache Flume 的架构设计？Source， Channel 和 Sink又分别代表什么？

4年前
1.3k
点赞
评论

如何保证 Kafka 的消息不丢失？

Apache Kafka 的配置参数怎样进行设置能够避免消息丢失呢？这里有一份完整的无消息丢失方案！

4年前
508
1
评论

如何提升 Kafka 生产者的吞吐量？

如何提升 Kafka 的 Producer 的吞吐量？我们需要修改哪些Kafka的配置参数才能提升生产者吞吐量

4年前
3.3k
1
1

Kafka 的线上集群部署方案是怎样的？

结合实例谈谈生产环境的Kafka集群到底改怎么去规划，磁盘、内存、CPU、网卡该怎么分配才能最大化资源利用率

4年前
1.3k
2
评论

一篇文章搞懂 Hive 的调优思路【思维导图，建议收藏】

Apache Hive怎么进行企业级的调优？生产环境的 Apache Hive 如果真的要进行调优，收藏本文，你一定能找到答案

4年前
995
1
评论

常见的数据压缩算法有哪些？Hive 的数据压缩格式怎么选择？

常见的数据压缩算法有哪些？压缩模式可以从哪些角度进行评价？Apache Hive 可以使用哪些数据压缩算法？

4年前
3.2k
2
1

Hive 的文件存储格式怎么选择？

Hive支持的存储数的格式常见的有： TEXTFILE 、SEQUENCEFILE 、 ORC 、 PARQUET，我们该怎么选择？

4年前
2.6k
点赞
评论

Apache Hive 中 order by、sort by、distribute by、cluster by的区别是什么？

Apache Hive 中四个常见的 by 有什么区别：order by、sort by、distribute by、cluster by

4年前
3.1k
4
评论

图文详解 Hive 的工作原理

Apache Hive 的工作原理到底是怎样的？进来看看，足够你应付任何技术面试的答案就在这里面！！

4年前
1.7k
点赞
1

一篇文章搞懂 Hive 的系统架构

Apache Hive的系统架构是怎样的？由哪些部分组成？每一部分各有怎样的作用？进来看看，详细的图文相信会令你满意

4年前
2.2k
点赞
评论

Flink 的状态保存和恢复

Flink为什么被称为有状态数据流计算？Apache Flink® — Stateful Computations over Data Streams

4年前
1.5k
点赞
评论

一篇文章搞懂 Flink 的 watermark 机制

Flink 的 watermark 到底是什么？watermark有哪些类型？怎么生成？怎么处理数据？有没有代码样例？进来你都能看到

4年前
13k
8
2

Flink 的 Time 三兄弟

Flink中的 Time 三兄弟——Event Time、Ingestion time、Processing Time到底是什么？

4年前
576
点赞
评论