从大数据到人工智能

大数据平台开发工程师

大数据与人工智能经验分享

赞

133

|

搜索文章

自己构建kafka镜像进行开发测试，你学会了吗？

平常在开发的时候经常需要使用某些软件协同进行功能调试，比如说，在做基于Flink CDC的时候，需要将数据从mysql binlog导入到kafka，然后再导入到hudi数据湖。那么问题就来了，要做这么一件事情，我需要先起一个mysql，一个kafka，一个yarn集群、一个hd...

4年前
122
点赞
评论

Zeppelin结合Flink查询hudi数据

Zeppelin是基于 Web 的notebook，是支持使用 SQL、Scala、Python、R 等进行数据驱动的交互式数据分析和协作的Notebook。Zeppelin支持多种语言后端，Apache Zeppelin 解释器允许将任何语言/数据处理后端插入 Zeppelin...

4年前
165
点赞
评论

使用FLINK SQL从savepoint恢复hudi作业（flink 1.13）

Flink从1.13版本开始支持在SQL Client从savepoint恢复作业。接下来我们从Flink SQL Client构建一个mysql cdc数据经kafka入hudi数据湖的例子。在上述第二步中，我们通过手工停止kafka→hudi的Flink任务，然后在Flink...

4年前
244
点赞
评论

hudi的索引机制以及使用场景

Apache Hudi 使用索引来定位更新/删除所属的文件组。对于 Copy-On-Write 表，通过避免需要连接整个数据集来确定要重写哪些文件，这可以实现快速的 upsert/delete 操作。对于 Merge-On-Read 表，这种设计允许 Hudi 限制任何给定基...

4年前
810
点赞
评论

kafka基础入门

Apache Kafka是一个事件流平台，其结合了三个关键的功能，使你可以完成端到端的事件流解决方案。发布(写)和订阅(读)事件流，包括从其他系统连续导入/导出数据。事件流存储具有持久性和可靠性。可以处理当前时刻或者以往的事件流。所有这些功能都是以分布式、高度可伸缩、弹性、容...

4年前
160
点赞
评论

grafana安装指南

wget https://dl.grafana.com/enterprise/release/grafana-enterprise_8.1.5_amd64.sudo dpkg -i grafana-enterprise_8.1.5_amd64.wget https://dl.gr...

4年前
409
点赞
评论

使用prometheus监控hudi相关指标

对hudi相关指标进行监控，只需要在将数据写入hudi的时候进行监控配置即可，本文以Flink SQL Client实战CDC数据入湖为例，对其指标进行监控。本文使用的示例与Flink SQL Client实战CDC数据入湖文章所述基本一致，只是在创建hudi目标表有所不同，并且...

4年前
475
点赞
评论

Prometheus与pushGateway安装与使用

wget https://github.com/prometheus/prometheus/releases/download/v2.30.0/prometheus-2.30.0.linux-amd64.tar.tar zxvf prometheus-2.30.0.linux-a...

4年前
288
1
评论

使用presto查询同步到hive的hudi数据

要完成如下任务，请确保已经使用其他方法将hudi数据同步到hive中。如果没有同步hive数据，可参考文章：使用flink SQL Client将mysql数据写入到hudi并同步到hive，并且，以下内容中的presto查询，即是基于上述参考文章所同步的hive表进行查询的，建...

4年前
324
2
评论

使用Flink对hudi MOR表进行离线压缩

默认情况下，MERGE_ON_READ表的压缩是启用的。触发器策略是在完成五次提交后执行压缩。因为压缩会消耗大量内存，并且与写操作处于相同的管道中，所以当数据量很大(> 100000 /秒)时，很容易干扰写操作。此时，使用离线压缩能够更稳定地执行压缩任务。压缩任务的执行包括...

4年前
500
1
评论

个人成就

文章被点赞 175

文章被阅读 56,685

加入于

2022-01-10