数仓

数仓

等 2 人订阅共7篇文章创建于2024-01-08

浅析大数据计算框架的SQL底层原理

常见的一些大数据计算框架，例如Hive、spark SQL、flink SQL都是将SQL转换为对应框架的计算结构执行作业的，此文汇总一下各个框架的底层对于SQL的转换的架构或者原理，内容均来自各个平

1年前
969
点赞
评论

浅析大数据计算框架的SQL底层原理

Flink实时去重——外部数据库实现

flink常见的实时去重方案：状态后端、HyperLogLog 、布隆过滤器（BloomFilter）、BitMap 基于、外部数据库（redis以及MySQL等）。redis的外部数据库大数据去重

2年前
755
点赞
评论

Flink实时去重——外部数据库实现

Flink实时去重——BitMap实现

flink常见的实时去重方案：、状态后端、HyperLogLog 、布隆过滤器（BloomFilter）、BitMap 、外部数据库（mysql、redis等），本文是基于bitmap的去重方案的实现

2年前
574
点赞
评论

Flink实时去重——BitMap实现

Flink实时去重——布隆过滤器(BloomFilter)实现

flink常见的实时去重方案：状态后端、HyperLogLog 、布隆过滤器（BloomFilter）、BitMap、外部数据库（redis、mysql）等。本篇是布隆过滤器的实现

2年前
627
点赞
评论

Flink实时去重——布隆过滤器(BloomFilter)实现

Flink实时去重——状态后端实现

flink常见的实时去重方案：状态后端、HyperLogLog 、布隆过滤器（BloomFilter）、BitMap 、外部数据库（readis、mysql等）

2年前
693
点赞
评论

Flink实时去重——状态后端实现

flink多数据类型从Kafka同步到动态HDFS目录

上文中只是处理了JSON数据，参考：https://juejin.cn/post/7321315460926767144 实际使用场景常见的数据除了json之外还有csv等，期望flink程序可以适配

2年前
289
点赞
评论

flink多数据类型从Kafka同步到动态HDFS目录

flink消费Kafka写入hdfs动态目录

从其他工具同步MySQL的数据到Kafka中，通过flink消费Kafka的数据写入hdfs目录。hdfs目录需要根据具体数据动态生成，需要重写BucketAssigner实现

2年前
1.6k
点赞
评论