首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据一锅端
武子康
创建于2024-10-12
订阅专栏
详细记录大数据的踩坑,包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件,覆盖离线+实时数仓全栈。让我们一起无限进步!
等 10 人订阅
共106篇文章
创建于2024-10-12
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据-87 Spark 实现圆周率计算与共同好友分析:Scala 实战案例
首先,圆周率的计算采用了蒙特卡洛方法:在单位正方形中随机生成点,判断其是否落在单位圆内,通过统计比例近似求得 π 值。代码基于 Scala 编写,使用 SparkConf 配置运行环境,并通过 RDD
大数据-86 Spark+Scala实现WordCount:大数据学习的入门实践
WordCount程序作为大数据学习的“Hello World”,不仅是入门的第一步,更蕴含了分布式计算的核心思想——分而治之。通过使用Spark和Scala实现,从文本加载、单词拆分、映射到计数归约
大数据-85 Spark Action 操作详解:从 Collect 到存储的全景解析
Action 是 Spark 中触发实际计算的核心操作,它会将 RDD 的一系列转换真正执行,并返回结果到驱动端或写入外部存储。常见操作可分为几类:数据收集类
大数据-84 Spark RDD创建全攻略:从集合、文件到转换操作详解
RDD 的创建依赖于 SparkContext,它是 Spark 应用的核心入口,负责与集群管理器建立连接并提供多种功能接口。通过 SparkContext,开发者可以创建 RDD、管理累加器和广播
大数据-83 Spark RDD详解:特性、优势与典型应用场景
RDD(Resilient Distributed Dataset,弹性分布式数据集)是Spark中最核心的数据抽象,提供了不可变、分区化、可并行处理的分布式集合。其核心特性包括:分区机制保证并行性;
大数据-82 Spark 集群架构与部署模式:核心组件、资源管理与调优
Spark集群架构由驱动程序、集群管理器和执行器三大核心组件组成,共同支撑其分布式计算能力。驱动程序是应用的入口,负责创建SparkContext、生成并优化执行计划,并通过集群管理器分发任务。
大数据-81 Spark 手把手搭建 分布式计算环境:从下载配置到多节点部署
Apache Spark 是一个开源的分布式数据处理框架,具备高速、通用与易用三大优势,广泛应用于批处理、流处理、机器学习与图计算等场景。它采用内存计算引擎与DAG调度机制,大幅提升任务执行效率。
大数据-80 Spark 从 MapReduce 到 Spark:大数据处理引擎的三代演进全景解析
Spark 是继 MapReduce 和 Hive 之后的新一代大数据处理引擎,凭借内存计算、DAG 执行引擎、统一的生态系统和卓越的兼容性,成为当前主流的大数据分析平台。
大数据-79 Kafka 监控从入门到实战:度量体系、JMX采集与可视化告警全流程 Prometheus、Kafka Eagle
Kafka 提供了两套度量系统:Yammer Metrics(服务端和Scala客户端使用)和 Kafka Metrics(Java客户端专用),均通过 JMX 接口统一暴露。
大数据-78 Kafka应用场景全解析:从消息中间件到流处理,附实战集群部署
Kafka 作为高吞吐、低延迟的分布式消息系统,在消息传递、网站活动路由、日志聚合、监控指标、流处理等场景中广泛应用。它通过主题机制支持发布-订阅模式,适合构建用户行为跟踪、实时数据处理与告警系统。
大数据-77 Kafka 延时队列与消息重试机制全解析:从原理到实战落地 Java
Kafka 的延时队列机制主要用于优化资源利用与消息一致性保障。在消费者或 Follower 拉取不到新消息时,Kafka 并不会立即返回空响应,而是采用 DelayedFetch 延时拉取策略;
大数据-76 Kafka 从发送到消费:Kafka 消息丢失/重复问题深入剖析与最佳实践
Kafka 中消息的重复与丢失问题主要发生在生产者、Broker 与消费者三个阶段。生产者阶段中,因网络异常、重试机制或未启用幂等性可能导致消息重复或顺序错乱;
大数据-75 Kafka 高水位线 HW 与日志末端 LEO 全面解析:副本同步与消费一致性核心
Kafka 通过维护 LEO(日志末端偏移) 与 HW(高水位线) 来实现分布式副本间的数据一致性。每个副本本地的 LEO 表示其日志末尾位置,而 HW 表示所有副本共同确认的“已复制”最小偏移
大数据-74 Kafka 核心机制揭秘:副本同步、控制器选举与可靠性保障
Kafka 控制器负责管理集群状态、执行分区 Leader 选举、监听 Broker 加入或宕机等事件。Kafka 依赖 ZooKeeper 实现控制器选举,并通过 epoch 机制避免“脑裂”问题。
大数据-73 Kafka 事务与幂等性详解:配置、原理与实战案例全解析
Kafka 的事务与幂等性机制为分布式消息处理提供了强一致性保障。事务配置涵盖 Broker、Producer 与 Consumer 三端,确保消息的“只一次”发送与消费。
大数据-72 Kafka 事务Coordinator、日志、2PC 与幂等性的协同机制 端到端Exactly-Once处理详解
Kafka 的事务机制旨在解决消息系统中的原子性与一致性问题,适用于纯消息生产、消费-处理-再生产(CTP)、消费偏移提交等多种事务场景。通过事务协调器、事务日志和控制消息
大数据-71 Kafka 从 sendfile 到 mmap:高性能背后的 I/O 技术全解析
Kafka 通过零拷贝(Zero-copy)技术大幅优化了磁盘与网络之间的数据传输效率,减少了传统I/O中多次内核与用户空间的数据拷贝。
大数据-70 Kafka 日志清理:删除、压缩及混合模式最佳实践
Kafka 的日志清理机制提供两种策略:删除(Delete)和压缩(Compact),以平衡磁盘空间与数据保留需求。删除策略通过时间、大小或偏移量规则移除过期数据,常用于临时日志与事件流等无需长期保存
大数据-69 Kafka 存储结构解析:日志文件与索引文件的内部机制
Kafka 采用分段存储,每个分区由.log、.index和.timeindex三类文件组成。.log 保存消息内容,顺序写入并按偏移量命名;.index 建立偏移量与物理位置的稀疏映射,提升查找效率
大数据-68 Kafka 日志存储 与 LogSegment 机制全面详解 实机实测
Kafka 的日志存储以主题(Topic)为单位组织,每个主题可包含多个分区(Partition),每个分区对应一个日志目录,内部由多个 LogSegment 组成。LogSegment 是分区日志。
下一页