大数据开发

大数据开发

大数据开发

从零入门大数据

等 6 人订阅共60篇文章创建于2022-08-29

大数据开发Hive高级函数（第二十篇）

持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第7天，点击查看活动详情一、Hive函数的基本操作与MySQL一样，hive也是一个主要做统计的工具，所以为了满足各种各样的统

3年前
443
点赞
评论

大数据开发Hive综合案例（第十九篇）

持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第6天，点击查看活动详情一、综合案例 1.1、需求描述 Flume按天把数据采集到HDFS中对应的目录中，使用SQL按天统计每天

3年前
115
点赞
评论

大数据开发Hive中数据库的操作（第十八篇）

Hive中常见的数据库相关操作： 1、创建数据库 2、查看表信息 3、查看表结构 4、查看表的创建信息 5、修改表名 6、加载数据 7、查询加载的数据 8、表增加字段 9、表增加注释

3年前
154
点赞
评论

大数据开发使用Hive（第十七篇）

一、Hive的使用方式 1.1、命令行方式hive方式针对命令行这种方式，其实还有两种使用第一个是使用bin目录下的hive命令，这个是从hive一开始就支持的使用方式后来又出现一个beeline命

3年前
301
点赞
评论

大数据开发快速入门Hive（第十六篇）

一、什么是Hive Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取、转化、加载，可以简称为ETL。 Hive 定义了简单的类SQL查询语言，称为HQL，它

3年前
517
点赞
评论

大数据开发Flume自定义组件（第十五篇）

一、自定义组件 source、channel、sink以及Source Interceptors，Channel Selectors、Sink Processors针对这些组件，Flume都内置提供了

3年前
286
点赞
评论

大数据开发Flume高级组件（第十四篇）

一、Flume的高级组件 Source Interceptors：Source可以指定一个或者多个拦截器按先后顺序依次对采集到的数据进行处理 Channel Selectors：Source发往多个C

3年前
208
点赞
评论

大数据开发快速入门Flume（第十三篇）

一、什么是Flume Flume是一个高可用、高可靠，分布式的海量日志采集、聚合和传输的系统，能够有效的收集、聚合、移动大量的日志数据。通俗来讲：Flume是一个很靠谱、很方便、很强大的日志采集工具。

3年前
870
1
评论

大数据开发Yarn实战（第十二篇）

一、Yarn信息从Hadoop2开始，官方把资源管理单独剥离出来，主要是为了考虑后期作为一个公共的资源管理平台，任何满足规则的计算引擎都可以在它上面执行。所以Yarn可以实现Hadoop集群的资源共

3年前
393
点赞
评论

大数据开发MapReduce性能优化（第十一篇）

一、小文件处理 Hadoop的HDFS和MapReduce都是针对大数据文件来设计的，在小文件的处理上不但效率低下，而且十分消耗内存资源。针对HDFS而言，每一个小文件在namenode中都会占用15

3年前
194
点赞
评论

大数据开发Hadoop序列化（第十篇）

我报名参加金石计划1期挑战——瓜分10万奖池，这是我的第n篇文章，点击查看活动详情一、Shuffle过程详解 Shuffle是一个网络拷贝的过程，是指通过网络把数据从map端拷贝到reduce端的过

3年前
565
点赞
评论

大数据开发深入MapReduce（第九篇）

一、MapReduce任务日志查看想要查看MapReduce程序执行过程中产生的日志信息怎么办？ 1.1、开启Yarn日志聚合功能需要开启YARN的日志聚合功能，把散落在NodeManager节点

3年前
227
点赞
评论

大数据开发MapReduce（第八篇）

一、MapReduce介绍 1.1、MapReduce计算思想举个例子，要统计扑克牌的黑桃个数，最直接的办法是一张一张检查然后进行统计。利用MapReduce的计算方法，可以优化为：把牌分配给在座

3年前
1.5k
3
2

大数据开发DataNode与HDFS高级特性（第七篇）

一、SecondaryNameNode SecondaryNameNode主要负责定期的把edits文件中的内容合并到fsimage中。这个合并操作称为checkpoint，在合并的时候会对edits

3年前
273
点赞
评论

大数据开发初识NameNode（第六篇）

一、NameNode介绍 1.1、HDFS支持主从结构主节点称为：NameNode，因为主节点上运行的有NameNode进程。NameNode支持多个，目前配置1个从节点称为：DataNode，因

3年前
218
点赞
评论

大数据开发初识HDFS（第五篇）

一、HDFS 1.1、HDFS分布式文件系统的设计思想用户请求查看数据时候请求主节点，主节点上面会维护所有数据的存储信息，主节点会把对应数据所在的节点信息返回给用户，然后用户根据数据所在节点信息去读

3年前
379
点赞
评论

大数据开发初识Hadoop（第四篇）

一、什么是Hadoop Hadoop适合海量数据分布式存储和分布式计算 1.1、Hadoop发行版本介绍目前Hadoop已经演变成为大数据的代名词，形成了一套完善的大数据生态系统，所以针对Hadoo

3年前
264
点赞
评论

大数据开发之学习Linux高级配置（第三篇）

一、Linux高级配置 1.1、Linux分配身份证号码（ip）静态ip设置这里的dhcp默认是动态获取。重启网络 service network restart 1.2、Linux起名字（hos

3年前
193
点赞
评论

大数据开发之学习Linux基础命令（第二篇）

一、Linux高级命令之文件相关 vi：文件编辑利器 wc、uniq、sort、head：文件内容统计相关命令 1.1、创建文件先用touch命令创建一个空文件，再用vi命令去编辑这个文件内容。或者

3年前
203
点赞
评论

大数据开发之学习Linux（第一篇）

一、安装Linux虚拟机 mac机器，安装vmware fusion软件。 centos下载地址：https://www.centos.org/centos-linux/。选择机器对应的版本。我这边选

3年前
244
点赞
评论