首页
AI Coding
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大数据开发
落叶飞逝的恋
创建于2022-08-29
订阅专栏
从零入门大数据
等 6 人订阅
共60篇文章
创建于2022-08-29
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据开发Hive高级函数(第二十篇)
持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第7天,点击查看活动详情 一、Hive函数的基本操作 与MySQL一样,hive也是一个主要做统计的工具,所以为了满足各种各样的统
大数据开发Hive综合案例(第十九篇)
持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第6天,点击查看活动详情 一、综合案例 1.1、需求描述 Flume按天把数据采集到HDFS中对应的目录中,使用SQL按天统计每天
大数据开发Hive中数据库的操作(第十八篇)
Hive中常见的数据库相关操作: 1、创建数据库 2、查看表信息 3、查看表结构 4、查看表的创建信息 5、修改表名 6、加载数据 7、查询加载的数据 8、表增加字段 9、表增加注释
大数据开发使用Hive(第十七篇)
一、Hive的使用方式 1.1、命令行方式hive方式 针对命令行这种方式,其实还有两种使用第一个是使用bin目录下的hive命令,这个是从hive一开始就支持的使用方式后来又出现一个beeline命
大数据开发快速入门Hive(第十六篇)
一、什么是Hive Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取、转化、加载,可以简称为ETL。 Hive 定义了简单的类SQL查询语言,称为HQL,它
大数据开发Flume自定义组件(第十五篇)
一、自定义组件 source、channel、sink以及Source Interceptors,Channel Selectors、Sink Processors针对这些组件,Flume都内置提供了
大数据开发Flume高级组件(第十四篇)
一、Flume的高级组件 Source Interceptors:Source可以指定一个或者多个拦截器按先后顺序依次对采集到的数据进行处理 Channel Selectors:Source发往多个C
大数据开发快速入门Flume(第十三篇)
一、什么是Flume Flume是一个高可用、高可靠,分布式的海量日志采集、聚合和传输的系统,能够有效的收集、聚合、移动大量的日志数据。通俗来讲:Flume是一个很靠谱、很方便、很强大的日志采集工具。
大数据开发Yarn实战(第十二篇)
一、Yarn信息 从Hadoop2开始,官方把资源管理单独剥离出来,主要是为了考虑后期作为一个公共的资源管理平台,任何满足规则的计算引擎都可以在它上面执行。所以Yarn可以实现Hadoop集群的资源共
大数据开发MapReduce性能优化(第十一篇)
一、小文件处理 Hadoop的HDFS和MapReduce都是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗内存资源。针对HDFS而言,每一个小文件在namenode中都会占用15
大数据开发Hadoop序列化(第十篇)
我报名参加金石计划1期挑战——瓜分10万奖池,这是我的第n篇文章,点击查看活动详情 一、Shuffle过程详解 Shuffle是一个网络拷贝的过程,是指通过网络把数据从map端拷贝到reduce端的过
大数据开发深入MapReduce(第九篇)
一、MapReduce任务日志查看 想要查看MapReduce程序执行过程中产生的日志信息怎么办? 1.1、开启Yarn日志聚合功能 需要开启YARN的日志聚合功能,把散落在NodeManager节点
大数据开发MapReduce(第八篇)
一、MapReduce介绍 1.1、MapReduce计算思想 举个例子,要统计扑克牌的黑桃个数,最直接的办法是一张一张检查然后进行统计。利用MapReduce的计算方法,可以优化为: 把牌分配给在座
大数据开发DataNode与HDFS高级特性(第七篇)
一、SecondaryNameNode SecondaryNameNode主要负责定期的把edits文件中的内容合并到fsimage中。这个合并操作称为checkpoint,在合并的时候会对edits
大数据开发初识NameNode(第六篇)
一、NameNode介绍 1.1、HDFS支持主从结构 主节点称为:NameNode,因为主节点上运行的有NameNode进程。NameNode支持多个,目前配置1个 从节点称为:DataNode,因
大数据开发初识HDFS(第五篇)
一、HDFS 1.1、HDFS分布式文件系统的设计思想 用户请求查看数据时候请求主节点,主节点上面会维护所有数据的存储信息,主节点会把对应数据所在的节点信息返回给用户,然后用户根据数据所在节点信息去读
大数据开发初识Hadoop(第四篇)
一、什么是Hadoop Hadoop适合海量数据分布式存储和分布式计算 1.1、Hadoop发行版本介绍 目前Hadoop已经演变成为大数据的代名词,形成了一套完善的大数据生态系统,所以针对Hadoo
大数据开发之学习Linux高级配置(第三篇)
一、Linux高级配置 1.1、Linux分配身份证号码(ip)静态ip设置 这里的dhcp默认是动态获取。 重启网络 service network restart 1.2、Linux起名字(hos
大数据开发之学习Linux基础命令(第二篇)
一、Linux高级命令之文件相关 vi:文件编辑利器 wc、uniq、sort、head:文件内容统计相关命令 1.1、创建文件 先用touch命令创建一个空文件,再用vi命令去编辑这个文件内容。或者
大数据开发之学习Linux(第一篇)
一、安装Linux虚拟机 mac机器,安装vmware fusion软件。 centos下载地址:https://www.centos.org/centos-linux/。选择机器对应的版本。我这边选