首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大数据开发
老土拨鼠
创建于2022-08-19
订阅专栏
大数据学习记录
暂无订阅
共14篇文章
创建于2022-08-19
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据开发学习2.1-Spark Core
RDD概述 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。 代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素
大数据开发学习2.0-Spark入门
Spark概述 Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎 Hadoop与Spark框架对比 Hadoop MR 框架 从数据源获取数据,经过分析计算后,将结果输出到指定位置 S
大数据开发学习1.12-Kafka消费者
Kafka消费方式 pull(拉)模式: consumer采用从broker中主动拉取数据。 push(推)模式: Kafka没有采用这种方式,因为由broker决定消息发送速率,很难适应所有消费者的
大数据开发学习1.11-Kafka Broker
Kafka的Broker为整个集群存储所有消息数据,以及对各个Topic进行管理和副本管理,尤其需要掌握其Leader的选举机制
大数据开发学习1.10-Kafka生产者
生产者消息发送流程 发送原理 在消息发送的过程中,涉及到了两个线程——main线程和Sender线程。在main线程中创建了一个双端队列RecordAccumulator。main线程将消息发送给Re
大数据开发学习1.9-Kafka入门
Kafka传统定义:Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域
大数据开发学习1.8-Flume入门和部署
Flume概述 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 Flume基于流式架构,灵活简单
大数据开发学习1.7-Hive的优化
Hive的优化在大数据开发过程中十分重要 优化方式包括整体系统参数调优、执行计划调优、分组聚合优化、Join优化,处理数据倾斜、并行度调优
大数据开发学习1.0-Hadoop集群部署
通过配置Hadoop环境,Hadoop的配置文件,编写Hadoop群起脚本,实现简单的Hadoop集群部署工作
大数据开发学习1.6-Hive的分区、分桶表和压缩存储
分区表 分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。
大数据开发学习1.5-Hive的函数
Hive会将常用的逻辑封装成函数给用户进行使用,类似于Java中的函数 好处:避免用户反复写逻辑,可以直接拿来使用 重点:用户需要知道函数叫什么,能做什么
大数据开发学习1.3-Hive的DDL和DML
Hive 数据类型 基本数据类型 DDL(Data Definition Language)数据定义 DML(Data Manipulation Language)数据操作
大数据开发学习1.2-Hive入门与安装
Hive入门——Hive是什么 Hive是由Facebook开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能
大数据开发学习1.1-ZooKeeper的安装部署
ZooKeeper的安装,配置环境和配置文件,实现在集群中部署zookeeper,编写启动脚本,实现zookeeper的简单部署