大数据

大数据

大数据

大数据技术分享

等 5 人订阅共91篇文章创建于2021-11-10

Flink 任务调度机制几个重要概念

调度器是 Flink 作业执行的核心组件，管理作业执行的所有相关过程，包括 JobGraph 到 ExecutionGraph 的转换、作业生命周期管理（作业的发布、取消、停止）、作业的 Task 生

4年前
804
点赞
评论

Hadoop运维工具箱之HDFS集群扩容与缩容

1、添加白名单白名单：表示在白名单的主机IP地址可以，用来存储数据。企业中：配置白名单，可以尽量防止黑客恶意访问攻击。 \ 尚硅谷大数据培训_专业的大数据培训机构_值得信赖的大数据教程大数据大

4年前
268
1
评论

Hadoop 运维工具箱之 HDFS 异构存储

异构存储主要解决，不同的数据，存储在不同类型的硬盘中，达到最佳性能的问题。 Hadoop 的存储类型和存储策略有; 1、查看当前有哪些存储策略可以用 [atguigu@hadoop102 hadoop

4年前
381
2
评论

Hadoop 之 HDFS 的 shell 操作

HDFS的Shell命令简介 HDFS是存取数据的分布式文件系统，那么对HDFS的操作，就是文件系统的基本操作，比如文件的创建、修改、删除、修改权限等，文件夹的创建、删除、重命名等。对HDFS的操作命

4年前
534
2
评论

新特性, 可以替代 Canal 的数据同步方案—Flink-CDC

一、CDC 简介 CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录

4年前
1.4k
1
评论

一文详解Hive的谓词下推

谓词，是指用来描述或判断客体性质、特征或客体之间关系的词项。在SQL中即返回值为布尔值的函数。谓词下推，在Hive中叫Predicate Pushdown，含义是指在不影响结果的前提下，尽量将过

4年前
1.2k
点赞
评论

大数据自编写RPC通信实例解析差RPC通信原理

1、 HDFS、YARN、MapReduce三者关系 2、需求解说模拟RPC的客户端、服务端、通信协议三者如何工作的 3、代码编写 1）在pom.xml中增加如下依赖 2)在项目的s

4年前
149
点赞
评论

如何进行hive查询优化

hive查询优化的主要目的是提升效率,下面总结了查询中经常使用的优化点： 1. 少用count(distinct ) 建议用group by 代替 distinct 。原因为count(distinc

4年前
337
1
评论

Hive文件类型合集

一、Text File 每一行都是一条记录，每行都以换行符（\ n）结尾。数据不做压缩，磁盘开销大，数据解析开销大。可结合Gzip、Bzip2使用（系统自动检查，执行查询时自动解压），但使用这种方式，

4年前
289
点赞
评论

Oracle优化：避免全表扫描

1．对返回的行无任何限定条件，即没有where 子句 2．未对数据表与任何索引主列相对应的行限定条件例如：在City-State-Zip列创建了三列复合索引，那么仅对State列限定条件不能使用

4年前
511
点赞
评论

Hive 数据倾斜问题定位排查及解决

多数介绍数据倾斜的文章都是以大篇幅的理论为主，并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题，这些理论很难直接应用，导致我们面对倾斜时还是不知所措。今天我们不扯大篇理论，直接以例子来实践，排查

4年前
251
点赞
评论

HiveSQL高级进阶10大技巧

直接上干货，HiveSQL高级进阶技巧，重要性不言而喻。掌握这10个技巧，你的SQL水平将有一个质的提升，达到一个较高的层次！ 1.删除： 2.更新：直接上干货，HiveSQL高级进阶技巧，重要性不

4年前
447
1
评论

Kafka与RabbitMQ区别

概述在分布式系统中,我们广泛运用消息中间件进行系统间的数据交换,便于异步解耦。现在开源的消息中间件有很多,前段时间产品 RocketMQ (MetaQ的内核) 也顺利开源。不过今天主要是对Kafka

4年前
729
点赞
评论

Hive往表写入数据的八种方法

1. 使用insert......select......\ 语法： select中的字段顺序与dest_table的一定要一致，字段名与dest_table的最好要一致。映射时是以字段顺序为准，不

4年前
2.2k
2
评论

Hadoop常见错误及解决方案

1）防火墙没关闭、或者没有启动YARN 2）主机名称配置错误 3）IP地址配置错误 4）ssh没有配置好 5）root用户和atguigu两个用户启动集群不统一 6）配置文件修改不细心 7）未编译源码

4年前
222
点赞
评论

Hadoop运行环境搭建

一、虚拟机环境准备 1. 克隆虚拟机 2. 修改克隆虚拟机的静态IP 3.

4年前
221
1
评论

HBase的 rowkey 设计原则

hbase所谓的三维有序存储的三维是指：rowkey（行主键），column key(columnFamily+qualifier)，timestamp(时间戳)三部分组成的三维有序存储。 rowke

4年前
262
点赞
评论

kafka 有几种数据保留的策略

kafka 有两种数据保存策略: 1、按照过期时间保留 2、按照存储的消息大小保留 Kafka Broker默认的消息保留策略是：要么保留一定时间，要么保留到消息达到一定大小的字节数。当消息达到设置

4年前
595
点赞
评论

Flume日志采集框架构成组件

框架结构 Flume 的核心是把数据从数据源收集过来，再送到目的地。为了保证输送一定成功，在送到目的地之前，会先缓存数据，待数据真正到达目的地后，删除自己缓存的数据。 Flume分布式系统中最核心的角

4年前
265
2
评论

Flume简介和架构安装配置详解

flume简介 Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的软件。 Flume 的核心是把数据从数据源(source)收集过来，再将收集到的数据送

4年前
410
点赞
评论