hudi

hudi

hudi

hudi数据湖从入门到进阶

等 9 人订阅共24篇文章创建于2022-01-10

Flink与Spark读写parquet文件全解析

Parquet介绍 Parquet 是一种开源文件格式，用于处理扁平列式存储数据格式，可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它以其高性能的数据压缩

3年前
1.9k
6
评论

Flink与Spark读写parquet文件全解析

用ranger对hive metastore 进行授权管理

hive standalone metastore 3.1.2可作为独立服务，作为spark、flink、presto等服务的元数据管理中心，然而在现有的hive授权方案中只有针对hiveserver

3年前
1.4k
12
1

用ranger对hive metastore 进行授权管理

Flink SQL Client实战CDC数据入湖

本文使用datafaker工具生成数据发送到MySQL，通过flink cdc工具将mysql binlog数据发送到kafka，最后再从kafka中读取数据并写入到hudi中。与此同时，在将数据写入到hudi中时，同步进行查询。datafaker 0.6.3 mysql 5.7...

3年前
530
1
评论

hudi 0.9.0适配hbase 2.2.6

在hudi中，hbase可以作为索引数据的存储，hudi默认使用的hbase版本为1.2.3。在hbase从1.x升级到2.x之后，其api发生了较大的变化，直接修改hudi中hbase的版本是不合适的，即会发生编译错误。本文对部分源码进行修改以使hbase 2.2.6适配hud...

3年前
164
1
评论

spark-shell操作hudi并使用hbase作为索引

接上一篇文章，上篇文章说到hudi适配hbase 2.2.6，这篇文章在spark-shell中操作hudi，并使用hbase作为索引。要完成以下实验，请先确保你已经按照文章步骤对hudi进行适配。并且得到了hudi-spark3-bundle_2.12-0.9.0.当然，如果你...

3年前
270
1
评论

Hudi关键术语及其概述

在其核心，Hudi维护了在不同时刻对表执行的所有操作的时间轴，这有助于提供表的瞬时视图，与此同时也有效地支持按到达顺序的数据检索。Hudi保证基于时间轴的动作是原子性的以及基于瞬时时间的时间轴一致性。COMMITS – 原子写操作一批数据到表中 CLEANS – 清除后台处于活动...

3年前
314
1
评论

hudi 0.9.0-relese版本无法加载默认配置项问题与修复方法

使用release-0.9.0分支对hudi进行打包，在使用flink以及spark的时候会报配置项空指针问题。就是某些配置项本来是可选的，有默认值的，但是在使用过程中发现该默认值无法加载。ction.scala:122) [flink-dist_2.12-1.12.2.jar:...

3年前
156
1
评论

Hudi：Apache Hadoop上的增量处理框架

本文部分翻译自2017.3.随着ApacheParquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展，Hadoop生态系统有潜力作为面向分钟级延时场景的通用统一服务层。然而，为了实现这一点，这需要在HDFS中实现高效且低延迟的数据...

3年前
458
1
评论

使用flink插入数据到hudi数据湖初探

hadoop 3.2.0 flink 1.11.4-bin-scala_2.11 hudi 0.8.本文基于上述组件版本使用flink插入数据到hudi数据湖中。为了确保以下各步骤能够成功完成，请确保hadoop集群正常启动。wget https://mirrors.tuna.t...

3年前
150
1
评论

使用spark3操作hudi数据湖初探

hadoop 3.2.0 spark 3.0.3-bin-hadoop3.2 hudi 0.8.本文基于上述组件版本使用spark插入数据到hudi数据湖中。为了确保以下各步骤能够成功完成，请确保hadoop集群正常启动。wget https://dlcdn.apache.org...

3年前
277
1
评论

Hudi内核分析之虚拟键（Virtual Keys）

Apache Hudi根据不同的表类型、配置参数来帮助您构建和管理数据湖，以满足每个人的需要。Hudi添加了每个记录的元数据字段，如_hoodie_record_key， _hoodie_partition path， _hoodie_commit_time，它有多种用途。它们有...

3年前
294
1
评论

Hudi Clustering特性

Apache Hudi为大数据带来了流处理，在提供新鲜数据的同时，比传统批处理效率高一个数量级。在数据湖/数据仓库中，关键的权衡之一是输入速度和查询性能之间的权衡。数据摄取通常倾向于小文件，以提高并行性，并使数据能够尽快用于查询。但是，如果有很多小文件，查询性能就会下降。此外，在...

3年前
548
1
评论

Hudi异步Clustering

在之前的一篇博客文章中，我们引入了一种新的名为clustering的表服务，它可以重组数据，从而在不影响写入速度的情况下提高查询性能。我们学习了如何设置inline clustering。在这篇文章中，我们将讨论自那以后发生的变化，并看看如何使用HoodieClusterin...

3年前
584
1
评论

使用flink SQL Client将mysql数据写入到hudi并同步到hive

mysql 5.7 hive 3.1.2 flink 1.12.2 hudi 0.9.0 hadoop 3.2.hudi适配hive 3.1.0.9.0版本的hudi在适配hive3时，其hudi/package/hudi-flink-bundle/pom.xml文件使用的fli...

3年前
382
1
评论

将数据迁移到hudi中

Hudi维护元数据，如提交时间轴和索引来管理表。提交时间线有助于理解表上发生的操作以及表的当前状态。索引被Hudi用来维护一个记录键到文件id映射，从而有效地定位一个记录。目前，Hudi只支持书写parquet columnar格式。为了能够开始为现有表使用Hudi，您需要将现有...

3年前
375
1
评论

使用Flink对hudi MOR表进行离线压缩

默认情况下，MERGE_ON_READ表的压缩是启用的。触发器策略是在完成五次提交后执行压缩。因为压缩会消耗大量内存，并且与写操作处于相同的管道中，所以当数据量很大(> 100000 /秒)时，很容易干扰写操作。此时，使用离线压缩能够更稳定地执行压缩任务。压缩任务的执行包括...

3年前
470
1
评论

使用prometheus监控hudi相关指标

对hudi相关指标进行监控，只需要在将数据写入hudi的时候进行监控配置即可，本文以Flink SQL Client实战CDC数据入湖为例，对其指标进行监控。本文使用的示例与Flink SQL Client实战CDC数据入湖文章所述基本一致，只是在创建hudi目标表有所不同，并且...

3年前
425
点赞
评论

hudi的索引机制以及使用场景

Apache Hudi 使用索引来定位更新/删除所属的文件组。对于 Copy-On-Write 表，通过避免需要连接整个数据集来确定要重写哪些文件，这可以实现快速的 upsert/delete 操作。对于 Merge-On-Read 表，这种设计允许 Hudi 限制任何给定基...

3年前
763
点赞
评论

使用FLINK SQL从savepoint恢复hudi作业（flink 1.13）

Flink从1.13版本开始支持在SQL Client从savepoint恢复作业。接下来我们从Flink SQL Client构建一个mysql cdc数据经kafka入hudi数据湖的例子。在上述第二步中，我们通过手工停止kafka→hudi的Flink任务，然后在Flink...

3年前
213
点赞
评论

Zeppelin结合Flink查询hudi数据

Zeppelin是基于 Web 的notebook，是支持使用 SQL、Scala、Python、R 等进行数据驱动的交互式数据分析和协作的Notebook。Zeppelin支持多种语言后端，Apache Zeppelin 解释器允许将任何语言/数据处理后端插入 Zeppelin...

3年前
143
点赞
评论