首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据一锅端
武子康
创建于2024-10-12
订阅专栏
详细记录大数据的踩坑,包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件,覆盖离线+实时数仓全栈。让我们一起无限进步!
等 20 人订阅
共157篇文章
创建于2024-10-12
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据-118 - Flink 批处理 DataSet API 全面解析:应用场景、代码示例与优化机制
Flink 的 DataSet API 是批处理的核心编程接口,专为处理静态、有限数据集设计,支持 TB 级甚至 PB 级大数据分析。相比 DataStream API 的流处理
大数据-117 - Flink JDBC Sink 详细解析:MySQL 实时写入、批处理优化与最佳实践 写出Kafka
JDBC Sink 是最常用的数据输出组件之一,常用于将流处理与批处理结果写入 MySQL、PostgreSQL、Oracle 等关系型数据库。通过 JdbcSink.sink() 方法,开发者
大数据-116 - Flink Sink 使用指南:类型、容错语义与应用场景 多种输出方式与落地实践
Flink 的 Sink 是数据流处理的最终输出端,用于将处理结果写入外部系统或存储介质。它是流式应用的终点,决定数据如何被保存、传输或消费。Sink 具备 数据输出、容错性和可扩展性 等特点
大数据-115 - Flink DataStream Transformation Map、FlatMap、Filter 到 Window 的全面讲解
Flink 针对 DataStream 提供了丰富的算子,支持数据流在不同场景下的灵活处理。常见的算子包括 Map、FlatMap 和 Filter,用于元素转换、拆分与条件筛选;KeyBy
大数据-114 Flink DataStreamAPI 从 SourceFunction 到 RichSourceFunction 源函数的增强与实战
RichSourceFunction 和 RichParallelSourceFunction 是功能增强型的源函数,适用于需要复杂逻辑和资源管理的场景。相比基础的 SourceFunction
大数据-113 Flink 源算子详解:非并行源(Non-Parallel Source)的原理与应用场景
非并行源(Non-Parallel Source)**是一种特殊的数据源操作,其并行度始终固定为 1。无论集群规模如何,它都只能在单一实例中运行,确保任务按顺序处理。非并行源的主要特点包括:单线程执行
大数据-112 Flink DataStream API :数据源、转换与输出 文件、Socket 到 Kafka 的完整流程
DataSource、Transformation 和 Sink。DataSource 提供多样化的数据输入方式,包括文件系统、消息队列、数据库及自定义数据源;Transformation
大数据-111 Flink 安装部署 On YARN 部署全流程详解:环境变量、配置与资源申请
在 YARN 模式下部署 Flink 需要完成一系列环境配置和集群管理操作。首先,在各节点配置环境变量,包括 HADOOP_CONF_DIR、YARN_CONF_DIR 和 HADOOP_CLASSP
大数据-110 Flink 安装与部署指南 支持 Local/Standalone/YARN 的多种模式
Flink 提供多种安装模式以适应不同场景需求。Local 模式适合个人学习与小规模调试,配置简单,可直接在本地 IDE 中运行。Standalone 模式是 Flink 内置的集群管理方式
大数据-109 Flink 架构深度解析:JobManager、TaskManager 与核心角色全景图
Flink 的运行架构采用典型的 Master/Slave 模式,各核心组件分工明确。JobManager 作为 Master,负责作业的解析、调度、检查点协调以及故障恢复,同时支持高可用设计和多种作
大数据-108 Flink 流批一体化入门:概念解析与WordCount代码实践 批数据+流数据
Apache Flink 既支持流处理(Stream Processing),也支持批处理(Batch Processing)。流处理适用于实时数据,如传感器、日志或交易流,特点是处理无界数据流、支持
大数据-107 Flink Apache Flink 入门全解:流批一体的实时计算引擎 从起源到技术特点的全面解析
Apache Flink 是一个开源的大数据流处理框架,支持无界流和有界批数据的高效计算,以“流批一体”为核心理念,将批处理视为流处理的特例。其具备高性能、分布式执行和弹性扩展能力,能够在 YARN、
大数据-106 Spark Graph X案例:1图计算、2连通图算法、3寻找相同用户 高效分区、负载均衡与迭代优化
合理选择分区策略可显著降低网络通信开销、避免数据倾斜,并提升迭代计算效率。GraphX 提供了多种分区方式:边分区(默认,简单但可能产生倾斜)、顶点分区(适合顶点度不均匀的图)、以及 2D 分区(能有
大数据-105 Spark GraphX 入门详解:分布式图计算框架全面解析 架构、算法与应用场景
属性图为核心,支持顶点和边的任意属性类型,能灵活表达复杂关系。GraphX 提供丰富的图操作,包括顶点和边的映射、子图提取以及聚合计算,并通过 Pregel API 实现迭代式图计算模型,适合大规模并
大数据-104 Spark Streaming 与 Kafka 集成:Offset 管理机制详解与最佳实践 Scala实现
Offset 用于标记 Kafka 分区内消息的位置,正确管理能够实现“至少一次”甚至“仅一次”的数据处理语义。通过持久化 Offset,应用在故障恢复时可从上次处理的位置继续消费,避免消息丢失或重复
大数据-103 Spark Streaming 消费 Kafka:Offset 获取、存储与恢复详解
Spark Streaming 集成 Kafka 时,Offset 管理是保证数据处理连续性与一致性的关键环节。Offset 用于标记消息在分区中的位置,应用可通过它来控制消费进度。若在程序异常退出前
大数据-102 Spark Streaming 与 Kafka 集成全解析:Receiver 与 Direct 两种方式详解 附代码案例
早期 Kafka-0.8 接口基于 Receiver Approach,通过 Executor 上的 Receiver 持续接收数据,并依赖 BlockManager 管理数据块。该方式实现简单
大数据-101 Spark Streaming 有状态转换详解:窗口操作与状态跟踪实战 附多案例代码
窗口操作通过设置窗口长度(windowDuration)和滑动间隔(slideDuration),在比 batchDuration 更长的时间范围内整合多个批次的数据,实现动态的流式计算。
大数据-100 Spark DStream 转换操作全面总结:map、reduceByKey 到 transform 的实战案例
DStream 的转换操作是 Spark Streaming 的核心,分为无状态(stateless)和有状态(stateful)两类。无状态操作如 map、flatMap、filter、reduce
大数据-99 Spark Streaming 数据源全面总结:原理、应用 文件流、Socket、RDD队列流
Spark Streaming 提供多种数据源以满足不同场景下的实时处理需求。文件系统数据源可持续监控目录并处理新文件,适合日志分析与报表处理;Socket 流通过 TCP 套接字接收文本数据
下一页