关于大数据

关于大数据

关于大数据

大数据系列文章都在这里。

等 12 人订阅共13篇文章创建于2021-10-08

专家给的Paimon配置直接抄？那你很勇哦

大家好，这里是狗哥。前阵子辅导的同学问了我一个Paimon相关的配置问题啊。这个配置呢，的确能够解决小文件带来的反压问题。但是...

6月前
154
点赞
评论

专家给的Paimon配置直接抄？那你很勇哦

AutoMQ代码里的那些设计

大家好这里是狗哥。之前AutoMQ的代码讲解还算受欢迎啊，今天来加个餐，讲讲AutoMQ代码里的那些设计(选择代码分支1.5)。里氏替换原则那读过Kafka源码的同学知道啊，KafkaApis是K

7月前
139
点赞
评论

Iceberg源码里的那些设计

大家好这里是狗哥。金9银10马上要到了啊，一些机智的同学已经开始提前备战了，近期找我辅导的同学也很多，给我累麻了。说正事啊。虽然很多大数据开发同学会写Java，但是Coding设计能力...

7月前
132
点赞
评论

Iceberg源码里的那些设计

生产级Rust代码品鉴(一)RisingWave一条SQL到运行的流程

选择RisingWave是因为我本身对Flink有些了解，再加上RW的代码本身写得还不错，比较易读，因此以它来做为生产级Rust代码的学习对象。本文基于RW v2.2.0。

9月前
176
点赞
评论

生产级Rust代码品鉴(一)RisingWave一条SQL到运行的流程

Fluss RoadMap里的ZeroDisk是啥

上期Fluss的内容还算受欢迎，这期加更，讲讲Fluss RoadMap里提到的Zero Disks是怎么个事儿。所谓Zero Disks就是把所有的存储放在S3这种远程，容量无限的存储上。

11月前
117
点赞
评论

Fluss RoadMap里的ZeroDisk是啥

入门向：下一代实时计算基础设施-Fluss

上期讲Flink Forward Aisa的视频比较受欢迎，这期加更讲Fluss。为了方便新观众了解Fluss。简单介绍一下Fluss，这玩意儿主要是为实时分析而生的流存储。所以它会有和Kafka

11月前
274
1
1

入门向：下一代实时计算基础设施-Fluss

2天的Flink Forward Asia 有什么值得关注的点

11月29号和30号，Flink Forward Asia 在上海举行。这篇文章给大家搞个省流版，聊聊有什么值得关注的点。

1年前
182
点赞
评论

2天的Flink Forward Asia 有什么值得关注的点

读Flink源码谈设计：流批一体的实现与现状

在Dataflow相关的论文发表前，大家都往往认为需要两套API来实现流计算和批计算，典型的实现便是Lambda架构。

4年前
754
7
评论

读Flink源码谈设计：流批一体的实现与现状

读Flink源码谈设计：FileSystemConnector中的整洁架构

前阵子在生产上碰到了一个诡异现象：全量作业无法正常进行，日志中充斥着timeout的报错。场景为Oracle全量抽取至Hive，数据会流过Kafka，数据量为T级别，根据时间字段每天做一个分区。

4年前
1.4k
8
评论

读Flink源码谈设计：FileSystemConnector中的整洁架构

读Flink源码谈设计：Exactly Once

将Flink应用至生产已有一段时间，刚上生产的时候有幸排查过因数据倾斜引起的Checkpoint超时问题——当时简单的了解了相关机制，最近正好在读Flink源码，不如趁这个机会搞清楚。

4年前
1.9k
5
评论

读Flink源码谈设计：图的抽象与分层

前阵子组里的小伙伴问我“为什么Flink从我们的代码到真正可执行的状态，要经过这么多个graph转换？这样做有什么好处嘛？”我早期看到这里的设计时的确有过相同的疑惑，当时由于手里还在看别的东西...

4年前
1.6k
9
评论

读Flink源码谈设计：图的抽象与分层

读Flink源码谈设计：有效管理内存之道

在最初接触到Flink时，是来自于业界里一些头部玩家的分享——大家会用其来处理海量数据。在这种场景下，`如何避免JVM GC带来StopTheWorld带来的副作用`这样的问题一直盘绕在我心头。

4年前
1.5k
8
评论

读Flink源码谈设计：有效管理内存之道

读Flink源码谈设计：Metric

前阵子笔者涉及了些许监控相关的开发工作，在开发过程中也碰到过些许问题，便翻读了FLink相关部分的代码，在读代码的过程中发现了一些好的设计，因此也是写成文章整理上来。

4年前
816
4
评论