首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据一锅端
武子康
创建于2024-10-12
订阅专栏
详细记录大数据的踩坑,包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件,覆盖离线+实时数仓全栈。让我们一起无限进步!
等 20 人订阅
共157篇文章
创建于2024-10-12
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据-98 Spark 从 DStream 到 Structured Streaming:Spark 实时计算的演进
随着大数据技术的发展,实时处理需求不断增加,传统的批处理框架已难以满足实时推荐、行为分析等场景的需求。Spark Streaming 作为 Spark 的核心组件,采用微批次(mini-batch)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程
在 SparkSQL 中,Join 是常见的数据分析操作,Spark 在物理计划阶段会根据表大小、是否等值 Join、Key 是否可排序等条件自动选择 Join 策略。
大数据-96 SparkSQL 语句详解:从 DataFrame 到 SQL 查询与 Hive 集成全解析
处理结构化与半结构化数据,兼容HiveQL并支持更简洁高效的语法。其核心抽象是DataFrame,支持多种数据源,如关系型数据库、Hive表、Parquet、JSON、CSV等。
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例
Transformation 具有“懒执行”特性,调用时不会立刻计算,而是记录逻辑与依赖关系,构建执行计划(DAG),仅在遇到 Action 时才真正触发运算。这种机制能减少中间存储、优化整体性能。
大数据-94 Spark核心三剑客:RDD、DataFrame、Dataset与SparkSession全面解析
核心数据抽象 RDD 具备不可变性、弹性容错和惰性求值特性,支持并行计算与分区策略,适合迭代式算法、ETL 流程及大规模数据处理。相比之下,DataFrame 提供了结构化数据接口,拥有 Cataly
大数据-93 SparkSQL 全面解析:SQL + 分布式计算的完美结合
上节研究了Spark的Standalone、SparkContext、Shuffle的V1和V2的对比等内容。本节研究SparkSQL,SparkSQL的基本概念、对比、架构、抽象。
大数据-92 Spark 深入解析 Spark Standalone 模式:组件构成、提交流程与性能优化
集群由 Driver、Master、Worker、Executor 四个核心组件组成。Driver 负责解析用户应用,将逻辑转化为 DAG 并调度任务;Master 作为集群管理器,监控 Worker
大数据-91 Spark广播变量:高效共享只读数据的最佳实践 RDD+Scala编程
在Spark分布式计算中,广播变量是一种高效共享只读数据的机制。Driver会将数据广播到各Executor,每个Executor仅需接收一次副本,避免了任务间重复传输,显著降低了网络开销。
大数据-90 Spark RDD容错机制:Checkpoint原理、场景与最佳实践 容错机制详解
在Spark中,RDD的容错机制主要依赖于检查点(Checkpoint)。检查点通过将RDD数据持久化到可靠的分布式存储(如HDFS),实现故障恢复和依赖链截断,区别于Persist/Cache等本地
大数据-89 Spark应用必备:进程通信、序列化机制与RDD执行原理
Spark的Driver-Executor架构中,Driver通过SparkContext负责资源申请、任务调度与监控,而Executor则执行具体计算。由于两者运行在不同进程中,进程间通信需依赖序列
大数据-88 Spark Super Word Count 全流程实现(Scala + MySQL)
Super Word Count 项目旨在实现一个高效的文本预处理与词频统计系统,并支持结果写入 MySQL。整体流程包括五个步骤:文本统一小写、标点符号清理、停用词过滤、词频统计与排序、以及数据存储
大数据-87 Spark 实现圆周率计算与共同好友分析:Scala 实战案例
首先,圆周率的计算采用了蒙特卡洛方法:在单位正方形中随机生成点,判断其是否落在单位圆内,通过统计比例近似求得 π 值。代码基于 Scala 编写,使用 SparkConf 配置运行环境,并通过 RDD
大数据-86 Spark+Scala实现WordCount:大数据学习的入门实践
WordCount程序作为大数据学习的“Hello World”,不仅是入门的第一步,更蕴含了分布式计算的核心思想——分而治之。通过使用Spark和Scala实现,从文本加载、单词拆分、映射到计数归约
大数据-85 Spark Action 操作详解:从 Collect 到存储的全景解析
Action 是 Spark 中触发实际计算的核心操作,它会将 RDD 的一系列转换真正执行,并返回结果到驱动端或写入外部存储。常见操作可分为几类:数据收集类
大数据-84 Spark RDD创建全攻略:从集合、文件到转换操作详解
RDD 的创建依赖于 SparkContext,它是 Spark 应用的核心入口,负责与集群管理器建立连接并提供多种功能接口。通过 SparkContext,开发者可以创建 RDD、管理累加器和广播
大数据-83 Spark RDD详解:特性、优势与典型应用场景
RDD(Resilient Distributed Dataset,弹性分布式数据集)是Spark中最核心的数据抽象,提供了不可变、分区化、可并行处理的分布式集合。其核心特性包括:分区机制保证并行性;
大数据-82 Spark 集群架构与部署模式:核心组件、资源管理与调优
Spark集群架构由驱动程序、集群管理器和执行器三大核心组件组成,共同支撑其分布式计算能力。驱动程序是应用的入口,负责创建SparkContext、生成并优化执行计划,并通过集群管理器分发任务。
大数据-81 Spark 手把手搭建 分布式计算环境:从下载配置到多节点部署
Apache Spark 是一个开源的分布式数据处理框架,具备高速、通用与易用三大优势,广泛应用于批处理、流处理、机器学习与图计算等场景。它采用内存计算引擎与DAG调度机制,大幅提升任务执行效率。
大数据-80 Spark 从 MapReduce 到 Spark:大数据处理引擎的三代演进全景解析
Spark 是继 MapReduce 和 Hive 之后的新一代大数据处理引擎,凭借内存计算、DAG 执行引擎、统一的生态系统和卓越的兼容性,成为当前主流的大数据分析平台。
大数据-79 Kafka 监控从入门到实战:度量体系、JMX采集与可视化告警全流程 Prometheus、Kafka Eagle
Kafka 提供了两套度量系统:Yammer Metrics(服务端和Scala客户端使用)和 Kafka Metrics(Java客户端专用),均通过 JMX 接口统一暴露。
下一页