大数据开发

大数据开发

大数据开发

大数据学习记录

暂无订阅共14篇文章创建于2022-08-19

大数据开发学习2.1-Spark Core

RDD概述 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素

3年前
176
点赞
评论

大数据开发学习2.0-Spark入门

Spark概述 Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎 Hadoop与Spark框架对比 Hadoop MR 框架从数据源获取数据，经过分析计算后，将结果输出到指定位置 S

3年前
1.6k
3
评论

大数据开发学习1.12-Kafka消费者

Kafka消费方式 pull（拉）模式： consumer采用从broker中主动拉取数据。 push（推）模式： Kafka没有采用这种方式，因为由broker决定消息发送速率，很难适应所有消费者的

3年前
518
点赞
评论

大数据开发学习1.11-Kafka Broker

Kafka的Broker为整个集群存储所有消息数据，以及对各个Topic进行管理和副本管理，尤其需要掌握其Leader的选举机制

3年前
1.6k
3
评论

大数据开发学习1.10-Kafka生产者

生产者消息发送流程发送原理在消息发送的过程中，涉及到了两个线程——main线程和Sender线程。在main线程中创建了一个双端队列RecordAccumulator。main线程将消息发送给Re

3年前
157
点赞
评论

大数据开发学习1.9-Kafka入门

Kafka传统定义：Kafka是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域

3年前
151
点赞
评论

大数据开发学习1.8-Flume入门和部署

Flume概述 Flume定义 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。 Flume基于流式架构，灵活简单

3年前
313
点赞
评论

大数据开发学习1.7-Hive的优化

Hive的优化在大数据开发过程中十分重要优化方式包括整体系统参数调优、执行计划调优、分组聚合优化、Join优化，处理数据倾斜、并行度调优

3年前
338
点赞
评论

大数据开发学习1.0-Hadoop集群部署

通过配置Hadoop环境，Hadoop的配置文件，编写Hadoop群起脚本，实现简单的Hadoop集群部署工作

3年前
221
点赞
评论

大数据开发学习1.6-Hive的分区、分桶表和压缩存储

分区表分区表实际上就是对应一个HDFS文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。

3年前
219
点赞
评论

大数据开发学习1.5-Hive的函数

Hive会将常用的逻辑封装成函数给用户进行使用，类似于Java中的函数好处：避免用户反复写逻辑，可以直接拿来使用重点：用户需要知道函数叫什么，能做什么

3年前
318
点赞
评论

大数据开发学习1.3-Hive的DDL和DML

Hive 数据类型基本数据类型 DDL（Data Definition Language）数据定义 DML（Data Manipulation Language）数据操作

3年前
306
点赞
评论

大数据开发学习1.2-Hive入门与安装

Hive入门——Hive是什么 Hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能

3年前
298
点赞
评论

大数据开发学习1.1-ZooKeeper的安装部署

ZooKeeper的安装，配置环境和配置文件，实现在集群中部署zookeeper，编写启动脚本，实现zookeeper的简单部署

3年前
263
点赞
评论