首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Flink早期代码解读系列
语落心生
创建于2026-01-21
订阅专栏
flink1.13的源码解读系列
暂无订阅
共15篇文章
创建于2026-01-21
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Flink特征计算 - 基于机器学习工作流的改造
背景 pyflink目前遇到性能瓶颈, 根因是因为在现有框架中flink流模式跑历史数据做验证 目前从MQ计算的特征,首先会在DAG图中,将每个测点到算法检测节点边拼接成一个邻接矩阵. 在获取到数据源
深入理解Flink与Kafka分区策略: 自定义CustomRangePartitioner详解
CustomRangePartitioner详解:深入理解Flink Kafka分区策略 引言 仓库地址:https://github.com/undertaker86001/dirstrbuted-
flink前身--对作业调度系统的思考
一开始看到flink打印的日志是有点懵逼的。checkPoint?taskManager?jobManager? 这些究竟是用来做什么的? 但是如果我们要对实时数据进行处理,这样的架构据没办法持久化。而且也不满足cpu资源在计算时得到充分的分配。也就是一种无状态的计算。为了让其…
Flink源码阅读(一) Runtime机制
因为目前我们线上的Flink版本是用的1.11。所以这个系列博客从Flink1.11的代码跟读起来 点开execute方法,看到如注释所示。这个函数作用为触发flink程序执行,在设置的StreamExecutionGraph的数据DAG图中,将默认使用输出流作为Sink。当执…
算法框架的迭代演进 从pyflink到自研,再到ray
背景 目前算法框架面临选型。需要知道在算法控制台需要支持窗口,水位线自定义调用算法插件等等需求. 由于目前面向从老到新框架的过渡阶段, 原先老的pyflink框架 目前以一个作业多点位进行测试。 在目
Flink源码阅读(五) FLink SQL之解析流程
Table/SQL模块是flink 为支持数仓开发人员,数据分析的人员的需求,基于calcite定义的一套语义规范。 Calcite会为每个SQL动态生成一个实现了Bindable接口的Class,然后动态编译创建实例后传入数据集执行计算。这里的数据集可以通过Schema进行灵…
记一次Flink写入文件系统超时的方案协商
cosn腾讯云自己封装的sdk 项目的架构 数据采集分发系统 上游解析mysql的数据,采集到中继kafka 从中继kafka分发到下游kafka以及入cosn 如果解决超时异常的问题 写入cosn架
从Flink中查看LSM树的思考
enmm首先,写这个也不指望有啥人认同,毕竟这个PR我也是在看别人的文档和代码。可以把这个系列的博客看成读后感吧 flink1.14的广义增量检查点: https://github.com/apach
算法框架flink集群内存调优
一般是由于flink内存分配的策略以及回收不及时导致的 现在taskmanager当中开启 rest.flamegraph: true 配置JVM dashboard观察gc log 参考教程: h
Flink源码阅读(三)checkPoint之容错恢复
承接上文:Flink源码阅读(二)checkPoint之产生原理。回顾一下上一篇提到的四个问题
Flink源码阅读(六) 自研SQL引擎的实现方法
在上文简述完SQL解析流程,并声明自定义SQL引擎中涉及改动到的类之后。本文基于 calcite 1.21.0 阐述如何自定义一个SQL引擎并应用到实际项目当中 意思就是自定义的SQL解析,会编译这个类文件中。
Flink源码阅读(七) 内存管理
Flink 的内存管理采用了显式的内存管理并用序列化方式存储对象,同时支持 on-heap 和 off-heap。在这点上 Flink 与 Spark 的MEMORY_ONLY_SER存储级别十分相似,不同点在于 Spark 仍以 on-heap 对象存储为主,而 Flink …
FlinkML: 浅谈二分类预估的实现
最近工作上需要用到FlinkML做实时训练和流式机器学习。对于卡口车辆图像,人员的二分类有着比较大的作用,在此分析实现. 我会分成三个部分来讲述: 应用场景、FlinkML对于二分类的实现, 如何评估
Flink源码阅读(二)checkPoint之产生原理
官方的解释为当作业图中的每个operator都收到这些障碍之一时,它会记录其状态。具有两个输入流(例如CoProcessFunction)的运算符执行屏障对齐,以便快照将反映由于消耗两个输入流中的事件直至(但不超过)两个屏障而导致的状态。 我们来到时序: JobMaster#c…
Flink源码阅读(四)checkPoint之数据一致性
Flink的一个重大价值在于,它既保证了exactly-once,也具有低延迟和高吞吐的处理能力。 当任务故障时,最简单的做法是什么都不干,既不恢复丢失的状态,也不重播丢失的数据。 At-most-once 语义的含义是最多处理一次事件。这其实是没有正确性保障的委婉说法——故障…