首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
武子康
掘友等级
后端工程师
永远好奇 无限进步!
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
124
文章 122
沸点 2
赞
124
返回
|
搜索文章
武子康
后端工程师
·
2小时前
关注
大数据-121 - Flink 时间语义详解:EventTime、ProcessingTime、IngestionTime 与 Watermark机制全解析
Watermark 是一个特殊的标志,它用于告诉 Flink 数据流中事件的进展情况。简单来说,Watermark 是 Flink 中估计的“当前时间”,表示所有早于该时间...
0
评论
分享
武子康
后端工程师
·
21小时前
关注
大数据-120 - Flink滑动窗口(Sliding Window)详解:原理、应用场景与实现示例 基于时间驱动&基于事件驱动
滑动窗口(Sliding Window)是Apache Flink流处理中的核心机制之一,比固定窗口更灵活,广泛应用于实时监控、异常检测、趋势分析和用户行为统计等场景。滑动...
0
评论
分享
武子康
后端工程师
·
2天前
关注
大数据-119 - Flink Flink 窗口(Window)全解析:Tumbling、Sliding、Session 应用场景 使用详解 最佳实践
Flink 的 Window 窗口机制 是流处理与批处理统一架构的核心桥梁。Flink 将批处理视为流处理的特例,通过 时间窗口(Tumbling、Sliding、Sess...
1
评论
分享
武子康
后端工程师
·
3天前
关注
大数据-118 - Flink 批处理 DataSet API 全面解析:应用场景、代码示例与优化机制
Flink 的 DataSet API 是批处理的核心编程接口,专为处理静态、有限数据集设计,支持 TB 级甚至 PB 级大数据分析。相比 DataStream API 的...
4
2
分享
武子康
后端工程师
·
4天前
关注
大数据-117 - Flink JDBC Sink 详细解析:MySQL 实时写入、批处理优化与最佳实践 写出Kafka
JDBC Sink 是最常用的数据输出组件之一,常用于将流处理与批处理结果写入 MySQL、PostgreSQL、Oracle 等关系型数据库。通过 JdbcSink.si...
3
2
分享
武子康
后端工程师
·
6天前
关注
大数据-116 - Flink Sink 使用指南:类型、容错语义与应用场景 多种输出方式与落地实践
Flink 的 Sink 是数据流处理的最终输出端,用于将处理结果写入外部系统或存储介质。它是流式应用的终点,决定数据如何被保存、传输或消费。Sink 具备 数据输出、容错...
2
评论
分享
武子康
后端工程师
·
7天前
关注
大数据-115 - Flink DataStream Transformation Map、FlatMap、Filter 到 Window 的全面讲解
Flink 针对 DataStream 提供了丰富的算子,支持数据流在不同场景下的灵活处理。常见的算子包括 Map、FlatMap 和 Filter,用于元素转换、拆分与条...
1
评论
分享
武子康
后端工程师
·
7天前
关注
大数据-114 Flink DataStreamAPI 从 SourceFunction 到 RichSourceFunction 源函数的增强与实战
RichSourceFunction 和 RichParallelSourceFunction 是功能增强型的源函数,适用于需要复杂逻辑和资源管理的场景。相比基础的 Sou...
1
评论
分享
武子康
后端工程师
·
8天前
关注
大数据-113 Flink 源算子详解:非并行源(Non-Parallel Source)的原理与应用场景
非并行源(Non-Parallel Source)**是一种特殊的数据源操作,其并行度始终固定为 1。无论集群规模如何,它都只能在单一实例中运行,确保任务按顺序处理。非并行...
1
评论
分享
武子康
后端工程师
·
10天前
关注
大数据-112 Flink DataStream API :数据源、转换与输出 文件、Socket 到 Kafka 的完整流程
DataSource、Transformation 和 Sink。DataSource 提供多样化的数据输入方式,包括文件系统、消息队列、数据库及自定义数据源;Transf...
1
评论
分享
武子康
后端工程师
·
11天前
关注
大数据-111 Flink 安装部署 On YARN 部署全流程详解:环境变量、配置与资源申请
在 YARN 模式下部署 Flink 需要完成一系列环境配置和集群管理操作。首先,在各节点配置环境变量,包括 HADOOP_CONF_DIR、YARN_CONF_DIR 和...
1
评论
分享
武子康
后端工程师
·
12天前
关注
大数据-110 Flink 安装与部署指南 支持 Local/Standalone/YARN 的多种模式
Flink 提供多种安装模式以适应不同场景需求。Local 模式适合个人学习与小规模调试,配置简单,可直接在本地 IDE 中运行。Standalone 模式是 Flink ...
2
评论
分享
武子康
后端工程师
·
13天前
关注
大数据-109 Flink 架构深度解析:JobManager、TaskManager 与核心角色全景图
Flink 的运行架构采用典型的 Master/Slave 模式,各核心组件分工明确。JobManager 作为 Master,负责作业的解析、调度、检查点协调以及故障恢复...
2
评论
分享
武子康
后端工程师
·
13天前
关注
大数据-108 Flink 流批一体化入门:概念解析与WordCount代码实践 批数据+流数据
Apache Flink 既支持流处理(Stream Processing),也支持批处理(Batch Processing)。流处理适用于实时数据,如传感器、日志或交易流...
1
评论
分享
武子康
后端工程师
·
15天前
关注
大数据-107 Flink Apache Flink 入门全解:流批一体的实时计算引擎 从起源到技术特点的全面解析
Apache Flink 是一个开源的大数据流处理框架,支持无界流和有界批数据的高效计算,以“流批一体”为核心理念,将批处理视为流处理的特例。其具备高性能、分布式执行和弹性...
1
评论
分享
武子康
后端工程师
·
16天前
关注
大数据-106 Spark Graph X案例:1图计算、2连通图算法、3寻找相同用户 高效分区、负载均衡与迭代优化
合理选择分区策略可显著降低网络通信开销、避免数据倾斜,并提升迭代计算效率。GraphX 提供了多种分区方式:边分区(默认,简单但可能产生倾斜)、顶点分区(适合顶点度不均匀的...
1
评论
分享
武子康
后端工程师
·
16天前
关注
大数据-105 Spark GraphX 入门详解:分布式图计算框架全面解析 架构、算法与应用场景
属性图为核心,支持顶点和边的任意属性类型,能灵活表达复杂关系。GraphX 提供丰富的图操作,包括顶点和边的映射、子图提取以及聚合计算,并通过 Pregel API 实现迭...
1
评论
分享
武子康
后端工程师
·
18天前
关注
大数据-104 Spark Streaming 与 Kafka 集成:Offset 管理机制详解与最佳实践 Scala实现
Offset 用于标记 Kafka 分区内消息的位置,正确管理能够实现“至少一次”甚至“仅一次”的数据处理语义。通过持久化 Offset,应用在故障恢复时可从上次处理的位置...
1
评论
分享
武子康
后端工程师
·
19天前
关注
大数据-103 Spark Streaming 消费 Kafka:Offset 获取、存储与恢复详解
Spark Streaming 集成 Kafka 时,Offset 管理是保证数据处理连续性与一致性的关键环节。Offset 用于标记消息在分区中的位置,应用可通过它来控制...
1
评论
分享
武子康
后端工程师
·
21天前
关注
大数据-102 Spark Streaming 与 Kafka 集成全解析:Receiver 与 Direct 两种方式详解 附代码案例
早期 Kafka-0.8 接口基于 Receiver Approach,通过 Executor 上的 Receiver 持续接收数据,并依赖 BlockManager 管理...
2
评论
分享
下一页
个人成就
文章被点赞
159
文章被阅读
8,961
掘力值
2,955
关注了
1
关注者
34
收藏集
0
关注标签
10
加入于
2019-11-11