首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据一锅端
武子康
创建于2024-10-12
订阅专栏
详细记录大数据的踩坑,包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件,覆盖离线+实时数仓全栈。让我们一起无限进步!
等 10 人订阅
共106篇文章
创建于2024-10-12
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据-107 Flink Apache Flink 入门全解:流批一体的实时计算引擎 从起源到技术特点的全面解析
Apache Flink 是一个开源的大数据流处理框架,支持无界流和有界批数据的高效计算,以“流批一体”为核心理念,将批处理视为流处理的特例。其具备高性能、分布式执行和弹性扩展能力,能够在 YARN、
大数据-106 Spark Graph X案例:1图计算、2连通图算法、3寻找相同用户 高效分区、负载均衡与迭代优化
合理选择分区策略可显著降低网络通信开销、避免数据倾斜,并提升迭代计算效率。GraphX 提供了多种分区方式:边分区(默认,简单但可能产生倾斜)、顶点分区(适合顶点度不均匀的图)、以及 2D 分区(能有
大数据-105 Spark GraphX 入门详解:分布式图计算框架全面解析 架构、算法与应用场景
属性图为核心,支持顶点和边的任意属性类型,能灵活表达复杂关系。GraphX 提供丰富的图操作,包括顶点和边的映射、子图提取以及聚合计算,并通过 Pregel API 实现迭代式图计算模型,适合大规模并
大数据-104 Spark Streaming 与 Kafka 集成:Offset 管理机制详解与最佳实践 Scala实现
Offset 用于标记 Kafka 分区内消息的位置,正确管理能够实现“至少一次”甚至“仅一次”的数据处理语义。通过持久化 Offset,应用在故障恢复时可从上次处理的位置继续消费,避免消息丢失或重复
大数据-103 Spark Streaming 消费 Kafka:Offset 获取、存储与恢复详解
Spark Streaming 集成 Kafka 时,Offset 管理是保证数据处理连续性与一致性的关键环节。Offset 用于标记消息在分区中的位置,应用可通过它来控制消费进度。若在程序异常退出前
大数据-102 Spark Streaming 与 Kafka 集成全解析:Receiver 与 Direct 两种方式详解 附代码案例
早期 Kafka-0.8 接口基于 Receiver Approach,通过 Executor 上的 Receiver 持续接收数据,并依赖 BlockManager 管理数据块。该方式实现简单
大数据-101 Spark Streaming 有状态转换详解:窗口操作与状态跟踪实战 附多案例代码
窗口操作通过设置窗口长度(windowDuration)和滑动间隔(slideDuration),在比 batchDuration 更长的时间范围内整合多个批次的数据,实现动态的流式计算。
大数据-100 Spark DStream 转换操作全面总结:map、reduceByKey 到 transform 的实战案例
DStream 的转换操作是 Spark Streaming 的核心,分为无状态(stateless)和有状态(stateful)两类。无状态操作如 map、flatMap、filter、reduce
大数据-99 Spark Streaming 数据源全面总结:原理、应用 文件流、Socket、RDD队列流
Spark Streaming 提供多种数据源以满足不同场景下的实时处理需求。文件系统数据源可持续监控目录并处理新文件,适合日志分析与报表处理;Socket 流通过 TCP 套接字接收文本数据
大数据-98 Spark 从 DStream 到 Structured Streaming:Spark 实时计算的演进
随着大数据技术的发展,实时处理需求不断增加,传统的批处理框架已难以满足实时推荐、行为分析等场景的需求。Spark Streaming 作为 Spark 的核心组件,采用微批次(mini-batch)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程
在 SparkSQL 中,Join 是常见的数据分析操作,Spark 在物理计划阶段会根据表大小、是否等值 Join、Key 是否可排序等条件自动选择 Join 策略。
大数据-96 SparkSQL 语句详解:从 DataFrame 到 SQL 查询与 Hive 集成全解析
处理结构化与半结构化数据,兼容HiveQL并支持更简洁高效的语法。其核心抽象是DataFrame,支持多种数据源,如关系型数据库、Hive表、Parquet、JSON、CSV等。
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例
Transformation 具有“懒执行”特性,调用时不会立刻计算,而是记录逻辑与依赖关系,构建执行计划(DAG),仅在遇到 Action 时才真正触发运算。这种机制能减少中间存储、优化整体性能。
大数据-94 Spark核心三剑客:RDD、DataFrame、Dataset与SparkSession全面解析
核心数据抽象 RDD 具备不可变性、弹性容错和惰性求值特性,支持并行计算与分区策略,适合迭代式算法、ETL 流程及大规模数据处理。相比之下,DataFrame 提供了结构化数据接口,拥有 Cataly
大数据-93 SparkSQL 全面解析:SQL + 分布式计算的完美结合
上节研究了Spark的Standalone、SparkContext、Shuffle的V1和V2的对比等内容。本节研究SparkSQL,SparkSQL的基本概念、对比、架构、抽象。
大数据-92 Spark 深入解析 Spark Standalone 模式:组件构成、提交流程与性能优化
集群由 Driver、Master、Worker、Executor 四个核心组件组成。Driver 负责解析用户应用,将逻辑转化为 DAG 并调度任务;Master 作为集群管理器,监控 Worker
大数据-91 Spark广播变量:高效共享只读数据的最佳实践 RDD+Scala编程
在Spark分布式计算中,广播变量是一种高效共享只读数据的机制。Driver会将数据广播到各Executor,每个Executor仅需接收一次副本,避免了任务间重复传输,显著降低了网络开销。
大数据-90 Spark RDD容错机制:Checkpoint原理、场景与最佳实践 容错机制详解
在Spark中,RDD的容错机制主要依赖于检查点(Checkpoint)。检查点通过将RDD数据持久化到可靠的分布式存储(如HDFS),实现故障恢复和依赖链截断,区别于Persist/Cache等本地
大数据-89 Spark应用必备:进程通信、序列化机制与RDD执行原理
Spark的Driver-Executor架构中,Driver通过SparkContext负责资源申请、任务调度与监控,而Executor则执行具体计算。由于两者运行在不同进程中,进程间通信需依赖序列
大数据-88 Spark Super Word Count 全流程实现(Scala + MySQL)
Super Word Count 项目旨在实现一个高效的文本预处理与词频统计系统,并支持结果写入 MySQL。整体流程包括五个步骤:文本统一小写、标点符号清理、停用词过滤、词频统计与排序、以及数据存储
下一页