大数据一锅端

大数据一锅端

大数据一锅端

详细记录大数据的踩坑，包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件，覆盖离线+实时数仓全栈。让我们一起无限进步！

等 20 人订阅共157篇文章创建于2024-10-12

大数据-98 Spark 从 DStream 到 Structured Streaming：Spark 实时计算的演进

随着大数据技术的发展，实时处理需求不断增加，传统的批处理框架已难以满足实时推荐、行为分析等场景的需求。Spark Streaming 作为 Spark 的核心组件，采用微批次（mini-batch）

2月前
131
1
评论

大数据-98 Spark 从 DStream 到 Structured Streaming：Spark 实时计算的演进

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程

在 SparkSQL 中，Join 是常见的数据分析操作，Spark 在物理计划阶段会根据表大小、是否等值 Join、Key 是否可排序等条件自动选择 Join 策略。

2月前
150
2
评论

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程

大数据-96 SparkSQL 语句详解：从 DataFrame 到 SQL 查询与 Hive 集成全解析

处理结构化与半结构化数据，兼容HiveQL并支持更简洁高效的语法。其核心抽象是DataFrame，支持多种数据源，如关系型数据库、Hive表、Parquet、JSON、CSV等。

2月前
81
1
评论

大数据-96 SparkSQL 语句详解：从 DataFrame 到 SQL 查询与 Hive 集成全解析

大数据-95 Spark 集群 SparkSQL Action与Transformation操作详细解释与测试案例

Transformation 具有“懒执行”特性，调用时不会立刻计算，而是记录逻辑与依赖关系，构建执行计划（DAG），仅在遇到 Action 时才真正触发运算。这种机制能减少中间存储、优化整体性能。

2月前
71
1
评论

大数据-95 Spark 集群 SparkSQL Action与Transformation操作详细解释与测试案例

大数据-94 Spark核心三剑客：RDD、DataFrame、Dataset与SparkSession全面解析

核心数据抽象 RDD 具备不可变性、弹性容错和惰性求值特性，支持并行计算与分区策略，适合迭代式算法、ETL 流程及大规模数据处理。相比之下，DataFrame 提供了结构化数据接口，拥有 Cataly

2月前
89
3
评论

大数据-94 Spark核心三剑客：RDD、DataFrame、Dataset与SparkSession全面解析

大数据-93 SparkSQL 全面解析：SQL + 分布式计算的完美结合

上节研究了Spark的Standalone、SparkContext、Shuffle的V1和V2的对比等内容。本节研究SparkSQL，SparkSQL的基本概念、对比、架构、抽象。

2月前
60
1
评论

大数据-93 SparkSQL 全面解析：SQL + 分布式计算的完美结合

大数据-92 Spark 深入解析 Spark Standalone 模式：组件构成、提交流程与性能优化

集群由 Driver、Master、Worker、Executor 四个核心组件组成。Driver 负责解析用户应用，将逻辑转化为 DAG 并调度任务；Master 作为集群管理器，监控 Worker

2月前
34
1
评论

大数据-92 Spark 深入解析 Spark Standalone 模式：组件构成、提交流程与性能优化

大数据-91 Spark广播变量：高效共享只读数据的最佳实践 RDD+Scala编程

在Spark分布式计算中，广播变量是一种高效共享只读数据的机制。Driver会将数据广播到各Executor，每个Executor仅需接收一次副本，避免了任务间重复传输，显著降低了网络开销。

2月前
59
1
评论

大数据-91 Spark广播变量：高效共享只读数据的最佳实践 RDD+Scala编程

大数据-90 Spark RDD容错机制：Checkpoint原理、场景与最佳实践容错机制详解

在Spark中，RDD的容错机制主要依赖于检查点（Checkpoint）。检查点通过将RDD数据持久化到可靠的分布式存储（如HDFS），实现故障恢复和依赖链截断，区别于Persist/Cache等本地

2月前
87
1
评论

大数据-90 Spark RDD容错机制：Checkpoint原理、场景与最佳实践容错机制详解

大数据-89 Spark应用必备：进程通信、序列化机制与RDD执行原理

Spark的Driver-Executor架构中，Driver通过SparkContext负责资源申请、任务调度与监控，而Executor则执行具体计算。由于两者运行在不同进程中，进程间通信需依赖序列

2月前
68
1
评论

大数据-89 Spark应用必备：进程通信、序列化机制与RDD执行原理

大数据-88 Spark Super Word Count 全流程实现（Scala + MySQL）

Super Word Count 项目旨在实现一个高效的文本预处理与词频统计系统，并支持结果写入 MySQL。整体流程包括五个步骤：文本统一小写、标点符号清理、停用词过滤、词频统计与排序、以及数据存储

2月前
73
1
评论

大数据-88 Spark Super Word Count 全流程实现（Scala + MySQL）

大数据-87 Spark 实现圆周率计算与共同好友分析：Scala 实战案例

首先，圆周率的计算采用了蒙特卡洛方法：在单位正方形中随机生成点，判断其是否落在单位圆内，通过统计比例近似求得 π 值。代码基于 Scala 编写，使用 SparkConf 配置运行环境，并通过 RDD

2月前
73
1
评论

大数据-87 Spark 实现圆周率计算与共同好友分析：Scala 实战案例

大数据-86 Spark+Scala实现WordCount：大数据学习的入门实践

WordCount程序作为大数据学习的“Hello World”，不仅是入门的第一步，更蕴含了分布式计算的核心思想——分而治之。通过使用Spark和Scala实现，从文本加载、单词拆分、映射到计数归约

2月前
59
1
评论

大数据-86 Spark+Scala实现WordCount：大数据学习的入门实践

大数据-85 Spark Action 操作详解：从 Collect 到存储的全景解析

Action 是 Spark 中触发实际计算的核心操作，它会将 RDD 的一系列转换真正执行，并返回结果到驱动端或写入外部存储。常见操作可分为几类：数据收集类

2月前
53
2
评论

大数据-85 Spark Action 操作详解：从 Collect 到存储的全景解析

大数据-84 Spark RDD创建全攻略：从集合、文件到转换操作详解

RDD 的创建依赖于 SparkContext，它是 Spark 应用的核心入口，负责与集群管理器建立连接并提供多种功能接口。通过 SparkContext，开发者可以创建 RDD、管理累加器和广播

2月前
118
1
评论

大数据-84 Spark RDD创建全攻略：从集合、文件到转换操作详解

大数据-83 Spark RDD详解：特性、优势与典型应用场景

RDD（Resilient Distributed Dataset，弹性分布式数据集）是Spark中最核心的数据抽象，提供了不可变、分区化、可并行处理的分布式集合。其核心特性包括：分区机制保证并行性；

2月前
173
1
评论

大数据-83 Spark RDD详解：特性、优势与典型应用场景

大数据-82 Spark 集群架构与部署模式：核心组件、资源管理与调优

Spark集群架构由驱动程序、集群管理器和执行器三大核心组件组成，共同支撑其分布式计算能力。驱动程序是应用的入口，负责创建SparkContext、生成并优化执行计划，并通过集群管理器分发任务。

2月前
90
2
评论

大数据-82 Spark 集群架构与部署模式：核心组件、资源管理与调优

大数据-81 Spark 手把手搭建分布式计算环境：从下载配置到多节点部署

Apache Spark 是一个开源的分布式数据处理框架，具备高速、通用与易用三大优势，广泛应用于批处理、流处理、机器学习与图计算等场景。它采用内存计算引擎与DAG调度机制，大幅提升任务执行效率。

2月前
98
1
评论

大数据-81 Spark 手把手搭建分布式计算环境：从下载配置到多节点部署

大数据-80 Spark 从 MapReduce 到 Spark：大数据处理引擎的三代演进全景解析

Spark 是继 MapReduce 和 Hive 之后的新一代大数据处理引擎，凭借内存计算、DAG 执行引擎、统一的生态系统和卓越的兼容性，成为当前主流的大数据分析平台。

2月前
80
2
评论

大数据-80 Spark 从 MapReduce 到 Spark：大数据处理引擎的三代演进全景解析

大数据-79 Kafka 监控从入门到实战：度量体系、JMX采集与可视化告警全流程 Prometheus、Kafka Eagle

Kafka 提供了两套度量系统：Yammer Metrics（服务端和Scala客户端使用）和 Kafka Metrics（Java客户端专用），均通过 JMX 接口统一暴露。

2月前
131
3
评论

大数据-79 Kafka 监控从入门到实战：度量体系、JMX采集与可视化告警全流程 Prometheus、Kafka Eagle