首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据
尚硅谷
创建于2021-11-10
订阅专栏
大数据技术分享
等 5 人订阅
共91篇文章
创建于2021-11-10
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Flink 任务调度机制几个重要概念
调度器是 Flink 作业执行的核心组件,管理作业执行的所有相关过程,包括 JobGraph 到 ExecutionGraph 的转换、作业生命周期管理(作业的发布、取消、停止)、作业的 Task 生
Hadoop运维工具箱之HDFS集群扩容与缩容
1、添加白名单 白名单:表示在白名单的主机IP地址可以,用来存储数据。 企业中:配置白名单,可以尽量防止黑客恶意访问攻击。 \ 尚硅谷大数据培训_专业的大数据培训机构_值得信赖的大数据教程 大数据 大
Hadoop 运维工具箱之 HDFS 异构存储
异构存储主要解决,不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 Hadoop 的存储类型和存储策略有; 1、查看当前有哪些存储策略可以用 [atguigu@hadoop102 hadoop
Hadoop 之 HDFS 的 shell 操作
HDFS的Shell命令简介 HDFS是存取数据的分布式文件系统,那么对HDFS的操作,就是文件系统的基本操作,比如文件的创建、修改、删除、修改权限等,文件夹的创建、删除、重命名等。对HDFS的操作命
新特性, 可以替代 Canal 的数据同步方案—Flink-CDC
一、CDC 简介 CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录
一文详解Hive的谓词下推
谓词,是指用来描述或判断客体性质、特征或客体之间关系的词项。在SQL中即返回值为布尔值的函数。 谓词下推,在Hive中叫Predicate Pushdown,含义是指在不影响结果的前提下,尽量将过
大数据自编写RPC通信实例解析差RPC通信原理
1、 HDFS、YARN、MapReduce三者关系 2、需求解说 模拟RPC的客户端、服务端、通信协议三者如何工作的 3、代码编写 1)在pom.xml中增加如下依赖 2)在项目的s
如何进行hive查询优化
hive查询优化的主要目的是提升效率,下面总结了查询中经常使用的优化点: 1. 少用count(distinct ) 建议用group by 代替 distinct 。原因为count(distinc
Hive文件类型合集
一、Text File 每一行都是一条记录,每行都以换行符(\ n)结尾。数据不做压缩,磁盘开销大,数据解析开销大。可结合Gzip、Bzip2使用(系统自动检查,执行查询时自动解压),但使用这种方式,
Oracle优化:避免全表扫描
1. 对返回的行无任何限定条件,即没有where 子句 2. 未对数据表与任何索引主列相对应的行限定条件 例如:在City-State-Zip列创建了三列复合索引,那么仅对State列限定条件不能使用
Hive 数据倾斜问题定位排查及解决
多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。 今天我们不扯大篇理论,直接以例子来实践,排查
HiveSQL高级进阶10大技巧
直接上干货,HiveSQL高级进阶技巧,重要性不言而喻。掌握这10个技巧,你的SQL水平将有一个质的提升,达到一个较高的层次! 1.删除: 2.更新: 直接上干货,HiveSQL高级进阶技巧,重要性不
Kafka与RabbitMQ区别
概述 在分布式系统中,我们广泛运用消息中间件进行系统间的数据交换,便于异步解耦。现在开源的消息中间件有很多,前段时间产品 RocketMQ (MetaQ的内核) 也顺利开源。不过今天主要是对Kafka
Hive往表写入数据的八种方法
1. 使用insert......select......\ 语法: select中的字段顺序与dest_table的一定要一致,字段名与dest_table的最好要一致。 映射时是以字段顺序为准,不
Hadoop常见错误及解决方案
1)防火墙没关闭、或者没有启动YARN 2)主机名称配置错误 3)IP地址配置错误 4)ssh没有配置好 5)root用户和atguigu两个用户启动集群不统一 6)配置文件修改不细心 7)未编译源码
Hadoop运行环境搭建
一、虚拟机环境准备 1. 克隆虚拟机 2. 修改克隆虚拟机的静态IP 3.
HBase的 rowkey 设计原则
hbase所谓的三维有序存储的三维是指:rowkey(行主键),column key(columnFamily+qualifier),timestamp(时间戳)三部分组成的三维有序存储。 rowke
kafka 有几种数据保留的策略
kafka 有两种数据保存策略: 1、按照过期时间保留 2、按照存储的消息大小保留 Kafka Broker默认的消息保留策略是:要么保留一定时间,要么保留到消息达到一定大小的字节数。 当消息达到设置
Flume日志采集框架构成组件
框架结构 Flume 的核心是把数据从数据源收集过来,再送到目的地。为了保证输送一定成功,在送到目的地之前,会先缓存数据,待数据真正到达目的地后,删除自己缓存的数据。 Flume分布式系统中最核心的角
Flume简介和架构安装配置详解
flume简介 Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。 Flume 的核心是把数据从数据源(source)收集过来,再将收集到的数据送
下一页