大数据一锅端

大数据一锅端

大数据一锅端

详细记录大数据的踩坑，包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件，覆盖离线+实时数仓全栈。让我们一起无限进步！

等 20 人订阅共157篇文章创建于2024-10-12

大数据-78 Kafka应用场景全解析：从消息中间件到流处理，附实战集群部署

Kafka 作为高吞吐、低延迟的分布式消息系统，在消息传递、网站活动路由、日志聚合、监控指标、流处理等场景中广泛应用。它通过主题机制支持发布-订阅模式，适合构建用户行为跟踪、实时数据处理与告警系统。

2月前
38
2
评论

大数据-78 Kafka应用场景全解析：从消息中间件到流处理，附实战集群部署

大数据-77 Kafka 延时队列与消息重试机制全解析：从原理到实战落地 Java

Kafka 的延时队列机制主要用于优化资源利用与消息一致性保障。在消费者或 Follower 拉取不到新消息时，Kafka 并不会立即返回空响应，而是采用 DelayedFetch 延时拉取策略；

2月前
137
2
评论

大数据-77 Kafka 延时队列与消息重试机制全解析：从原理到实战落地 Java

大数据-76 Kafka 从发送到消费：Kafka 消息丢失/重复问题深入剖析与最佳实践

Kafka 中消息的重复与丢失问题主要发生在生产者、Broker 与消费者三个阶段。生产者阶段中，因网络异常、重试机制或未启用幂等性可能导致消息重复或顺序错乱；

2月前
130
1
评论

大数据-76 Kafka 从发送到消费：Kafka 消息丢失/重复问题深入剖析与最佳实践

大数据-75 Kafka 高水位线 HW 与日志末端 LEO 全面解析：副本同步与消费一致性核心

Kafka 通过维护 LEO（日志末端偏移）与 HW（高水位线）来实现分布式副本间的数据一致性。每个副本本地的 LEO 表示其日志末尾位置，而 HW 表示所有副本共同确认的“已复制”最小偏移

3月前
115
1
评论

大数据-75 Kafka 高水位线 HW 与日志末端 LEO 全面解析：副本同步与消费一致性核心

大数据-74 Kafka 核心机制揭秘：副本同步、控制器选举与可靠性保障

Kafka 控制器负责管理集群状态、执行分区 Leader 选举、监听 Broker 加入或宕机等事件。Kafka 依赖 ZooKeeper 实现控制器选举，并通过 epoch 机制避免“脑裂”问题。

3月前
113
1
评论

大数据-74 Kafka 核心机制揭秘：副本同步、控制器选举与可靠性保障

大数据-73 Kafka 事务与幂等性详解：配置、原理与实战案例全解析

Kafka 的事务与幂等性机制为分布式消息处理提供了强一致性保障。事务配置涵盖 Broker、Producer 与 Consumer 三端，确保消息的“只一次”发送与消费。

3月前
71
1
评论

大数据-73 Kafka 事务与幂等性详解：配置、原理与实战案例全解析

大数据-72 Kafka 事务Coordinator、日志、2PC 与幂等性的协同机制端到端Exactly-Once处理详解

Kafka 的事务机制旨在解决消息系统中的原子性与一致性问题，适用于纯消息生产、消费-处理-再生产（CTP）、消费偏移提交等多种事务场景。通过事务协调器、事务日志和控制消息

3月前
50
1
评论

大数据-72 Kafka 事务Coordinator、日志、2PC 与幂等性的协同机制端到端Exactly-Once处理详解

大数据-71 Kafka 从 sendfile 到 mmap：高性能背后的 I/O 技术全解析

Kafka 通过零拷贝（Zero-copy）技术大幅优化了磁盘与网络之间的数据传输效率，减少了传统I/O中多次内核与用户空间的数据拷贝。

3月前
88
1
评论

大数据-71 Kafka 从 sendfile 到 mmap：高性能背后的 I/O 技术全解析

大数据-70 Kafka 日志清理：删除、压缩及混合模式最佳实践

Kafka 的日志清理机制提供两种策略：删除（Delete）和压缩（Compact），以平衡磁盘空间与数据保留需求。删除策略通过时间、大小或偏移量规则移除过期数据，常用于临时日志与事件流等无需长期保存

3月前
107
2
评论

大数据-70 Kafka 日志清理：删除、压缩及混合模式最佳实践

大数据-69 Kafka 存储结构解析：日志文件与索引文件的内部机制

Kafka 采用分段存储，每个分区由.log、.index和.timeindex三类文件组成。.log 保存消息内容，顺序写入并按偏移量命名；.index 建立偏移量与物理位置的稀疏映射，提升查找效率

3月前
112
2
评论

大数据-69 Kafka 存储结构解析：日志文件与索引文件的内部机制

大数据-68 Kafka 日志存储与 LogSegment 机制全面详解实机实测

Kafka 的日志存储以主题（Topic）为单位组织，每个主题可包含多个分区（Partition），每个分区对应一个日志目录，内部由多个 LogSegment 组成。LogSegment 是分区日志。

3月前
34
1
评论

大数据-68 Kafka 日志存储与 LogSegment 机制全面详解实机实测

大数据-67 Kafka 分区分配策略详解与实战：Range、RoundRobin、Sticky 全面解析

常用策略包括 RangeAssignor（范围分配）、RoundRobinAssignor（轮询分配）和 StickyAssignor（粘性分配）。RangeAssignor 按分区编号范围分配

3月前
67
1
评论

大数据-67 Kafka 分区分配策略详解与实战：Range、RoundRobin、Sticky 全面解析

大数据-66 Kafka 分区与副本机制详解：高可用与高性能的核心与实战副本与分区

Kafka 的分区（Partition）是实现高并发与高吞吐的核心机制，每个主题可包含多个分区，支持分布式存储与并行处理。分区内消息顺序严格保证，每条消息拥有唯一递增的偏移量（Offset），并持久化

3月前
80
1
评论

大数据-66 Kafka 分区与副本机制详解：高可用与高性能的核心与实战副本与分区

大数据-65 Kafka 高级特性 Broker ISR 宕机重平衡实测详解

Kafka启动再平衡机制旨在解决因Broker故障、自动Leader选举或滚动重启导致的Leader分布不均问题。初始分区分配通过手动指定Leader和Follower位置实现均衡，但运行中可能出现

3月前
57
2
评论

大数据-65 Kafka 高级特性 Broker ISR 宕机重平衡实测详解

大数据-64 Kafka 深入理解 Kafka 分区与重分配机制：高并发与高可用的核心实机测试

Kafka 分区是实现高并发与高可用的核心机制。每个主题可被划分为多个分区，分布在不同 Broker 上，以实现水平扩展和并行处理。生产者可并发写入不同分区，消费者组内多个消费者可并行消费数据。

3月前
132
3
评论

大数据-64 Kafka 深入理解 Kafka 分区与重分配机制：高并发与高可用的核心实机测试

大数据-63 Kafka 副本机制详解：高可用性、ISR原理与Leader选举全解析

Kafka 的副本机制通过在多个 Broker 上复制分区数据，保障了高可用性与数据持久性。每个分区包含 1 个 Leader 副本和若干 Follower 副本，所有读写由 Leader 处理.

3月前
105
1
评论

大数据-63 Kafka 副本机制详解：高可用性、ISR原理与Leader选举全解析

大数据-62 Kafka Topic 管理与运维实战：命令详解 + 副本分配策略 + JavaAPI

本文系统介绍了 Kafka 中 kafka-topics.sh 脚本的使用方法，包括创建、查看、修改、删除主题以及增加分区等基本操作。同时深入解析了分区副本的分配策略，强调跨 Broker 和跨机架

3月前
36
1
评论

大数据-62 Kafka Topic 管理与运维实战：命令详解 + 副本分配策略 + JavaAPI

大数据-61 Kafka 主题、分区与消费者机制详解：从基础概念到重平衡优化

Kafka通过Topic（主题）管理消息流，每个主题可按业务分类，如订单、日志等，并可设置副本因子、保留时间和清理策略。主题下的数据以Partition（分区）为基本存储单元，分布在不同Broker上

3月前
55
1
评论

大数据-61 Kafka 主题、分区与消费者机制详解：从基础概念到重平衡优化

大数据-60 Kafka 消息消费与心跳机制详解：原理、流程及参数调优

Kafka 消息消费是数据从集群传递到应用的重要环节，由消费者（Consumer）和消费者组（Consumer Group）协作完成。消费者通过订阅或分配分区方式获取分区数据，采用拉取（Pull）

3月前
44
1
评论

大数据-60 Kafka 消息消费与心跳机制详解：原理、流程及参数调优

大数据-59 Kafka 拦截器全解析：原理、拦截链机制与自定义实现实战

Kafka 拦截器（Interceptor）是 Kafka 0.10 引入的重要扩展机制，用于在 Producer 和 Consumer 客户端中实现定制化逻辑。Producer 拦截器

3月前
175
2
评论

大数据-59 Kafka 拦截器全解析：原理、拦截链机制与自定义实现实战