首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
从大数据到人工智能
掘友等级
大数据平台开发工程师
大数据与人工智能经验分享
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
133
文章 133
沸点 0
赞
133
返回
|
搜索文章
最新
热门
自己构建kafka镜像进行开发测试,你学会了吗?
平常在开发的时候经常需要使用某些软件协同进行功能调试,比如说,在做基于Flink CDC的时候,需要将数据从mysql binlog导入到kafka,然后再导入到hudi数据湖。那么问题就来了,要做这么一件事情,我需要先起一个mysql,一个kafka,一个yarn集群、一个hd...
Zeppelin结合Flink查询hudi数据
Zeppelin是基于 Web 的notebook,是支持使用 SQL、Scala、Python、R 等进行数据驱动的交互式数据分析和协作的Notebook。Zeppelin支持多种语言后端,Apache Zeppelin 解释器允许将任何语言/数据处理后端插入 Zeppelin...
使用FLINK SQL从savepoint恢复hudi作业 (flink 1.13)
Flink从1.13版本开始支持在SQL Client从savepoint恢复作业。接下来我们从Flink SQL Client构建一个mysql cdc数据经kafka入hudi数据湖的例子。在上述第二步中,我们通过手工停止kafka→hudi的Flink任务,然后在Flink...
hudi的索引机制以及使用场景
Apache Hudi 使用索引来定位更新/删除所属的文件组。 对于 Copy-On-Write 表,通过避免需要连接整个数据集来确定要重写哪些文件,这可以实现快速的 upsert/delete 操作。 对于 Merge-On-Read 表,这种设计允许 Hudi 限制任何给定基...
kafka基础入门
Apache Kafka是一个事件流平台,其结合了三个关键的功能,使你可以完成端到端的事件流解决方案。发布(写)和订阅(读)事件流,包括从其他系统连续导入/导出数据。 事件流存储具有持久性和可靠性。 可以处理当前时刻或者以往的事件流。所有这些功能都是以分布式、高度可伸缩、弹性、容...
grafana安装指南
wget https://dl.grafana.com/enterprise/release/grafana-enterprise_8.1.5_amd64.sudo dpkg -i grafana-enterprise_8.1.5_amd64.wget https://dl.gr...
使用prometheus监控hudi相关指标
对hudi相关指标进行监控,只需要在将数据写入hudi的时候进行监控配置即可,本文以Flink SQL Client实战CDC数据入湖为例,对其指标进行监控。本文使用的示例与Flink SQL Client实战CDC数据入湖文章所述基本一致,只是在创建hudi目标表有所不同,并且...
Prometheus与pushGateway安装与使用
wget https://github.com/prometheus/prometheus/releases/download/v2.30.0/prometheus-2.30.0.linux-amd64.tar.tar zxvf prometheus-2.30.0.linux-a...
使用presto查询同步到hive的hudi数据
要完成如下任务,请确保已经使用其他方法将hudi数据同步到hive中。如果没有同步hive数据,可参考文章:使用flink SQL Client将mysql数据写入到hudi并同步到hive,并且,以下内容中的presto查询,即是基于上述参考文章所同步的hive表进行查询的,建...
使用Flink对hudi MOR表进行离线压缩
默认情况下,MERGE_ON_READ表的压缩是启用的。 触发器策略是在完成五次提交后执行压缩。 因为压缩会消耗大量内存,并且与写操作处于相同的管道中,所以当数据量很大(> 100000 /秒)时,很容易干扰写操作。 此时,使用离线压缩能够更稳定地执行压缩任务。压缩任务的执行包括...
下一页
个人成就
文章被点赞
175
文章被阅读
53,901
掘力值
863
关注了
5
关注者
18
收藏集
1
关注标签
8
加入于
2022-01-10