首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据一锅端
武子康
创建于2024-10-12
订阅专栏
详细记录大数据的踩坑,包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件,覆盖离线+实时数仓全栈。让我们一起无限进步!
等 20 人订阅
共157篇文章
创建于2024-10-12
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据-78 Kafka应用场景全解析:从消息中间件到流处理,附实战集群部署
Kafka 作为高吞吐、低延迟的分布式消息系统,在消息传递、网站活动路由、日志聚合、监控指标、流处理等场景中广泛应用。它通过主题机制支持发布-订阅模式,适合构建用户行为跟踪、实时数据处理与告警系统。
大数据-77 Kafka 延时队列与消息重试机制全解析:从原理到实战落地 Java
Kafka 的延时队列机制主要用于优化资源利用与消息一致性保障。在消费者或 Follower 拉取不到新消息时,Kafka 并不会立即返回空响应,而是采用 DelayedFetch 延时拉取策略;
大数据-76 Kafka 从发送到消费:Kafka 消息丢失/重复问题深入剖析与最佳实践
Kafka 中消息的重复与丢失问题主要发生在生产者、Broker 与消费者三个阶段。生产者阶段中,因网络异常、重试机制或未启用幂等性可能导致消息重复或顺序错乱;
大数据-75 Kafka 高水位线 HW 与日志末端 LEO 全面解析:副本同步与消费一致性核心
Kafka 通过维护 LEO(日志末端偏移) 与 HW(高水位线) 来实现分布式副本间的数据一致性。每个副本本地的 LEO 表示其日志末尾位置,而 HW 表示所有副本共同确认的“已复制”最小偏移
大数据-74 Kafka 核心机制揭秘:副本同步、控制器选举与可靠性保障
Kafka 控制器负责管理集群状态、执行分区 Leader 选举、监听 Broker 加入或宕机等事件。Kafka 依赖 ZooKeeper 实现控制器选举,并通过 epoch 机制避免“脑裂”问题。
大数据-73 Kafka 事务与幂等性详解:配置、原理与实战案例全解析
Kafka 的事务与幂等性机制为分布式消息处理提供了强一致性保障。事务配置涵盖 Broker、Producer 与 Consumer 三端,确保消息的“只一次”发送与消费。
大数据-72 Kafka 事务Coordinator、日志、2PC 与幂等性的协同机制 端到端Exactly-Once处理详解
Kafka 的事务机制旨在解决消息系统中的原子性与一致性问题,适用于纯消息生产、消费-处理-再生产(CTP)、消费偏移提交等多种事务场景。通过事务协调器、事务日志和控制消息
大数据-71 Kafka 从 sendfile 到 mmap:高性能背后的 I/O 技术全解析
Kafka 通过零拷贝(Zero-copy)技术大幅优化了磁盘与网络之间的数据传输效率,减少了传统I/O中多次内核与用户空间的数据拷贝。
大数据-70 Kafka 日志清理:删除、压缩及混合模式最佳实践
Kafka 的日志清理机制提供两种策略:删除(Delete)和压缩(Compact),以平衡磁盘空间与数据保留需求。删除策略通过时间、大小或偏移量规则移除过期数据,常用于临时日志与事件流等无需长期保存
大数据-69 Kafka 存储结构解析:日志文件与索引文件的内部机制
Kafka 采用分段存储,每个分区由.log、.index和.timeindex三类文件组成。.log 保存消息内容,顺序写入并按偏移量命名;.index 建立偏移量与物理位置的稀疏映射,提升查找效率
大数据-68 Kafka 日志存储 与 LogSegment 机制全面详解 实机实测
Kafka 的日志存储以主题(Topic)为单位组织,每个主题可包含多个分区(Partition),每个分区对应一个日志目录,内部由多个 LogSegment 组成。LogSegment 是分区日志。
大数据-67 Kafka 分区分配策略详解与实战:Range、RoundRobin、Sticky 全面解析
常用策略包括 RangeAssignor(范围分配)、RoundRobinAssignor(轮询分配)和 StickyAssignor(粘性分配)。RangeAssignor 按分区编号范围分配
大数据-66 Kafka 分区与副本机制详解:高可用与高性能的核心与实战 副本与分区
Kafka 的分区(Partition)是实现高并发与高吞吐的核心机制,每个主题可包含多个分区,支持分布式存储与并行处理。分区内消息顺序严格保证,每条消息拥有唯一递增的偏移量(Offset),并持久化
大数据-65 Kafka 高级特性 Broker ISR 宕机重平衡 实测详解
Kafka启动再平衡机制旨在解决因Broker故障、自动Leader选举或滚动重启导致的Leader分布不均问题。初始分区分配通过手动指定Leader和Follower位置实现均衡,但运行中可能出现
大数据-64 Kafka 深入理解 Kafka 分区与重分配机制:高并发与高可用的核心 实机测试
Kafka 分区是实现高并发与高可用的核心机制。每个主题可被划分为多个分区,分布在不同 Broker 上,以实现水平扩展和并行处理。生产者可并发写入不同分区,消费者组内多个消费者可并行消费数据。
大数据-63 Kafka 副本机制详解:高可用性、ISR原理与Leader选举全解析
Kafka 的副本机制通过在多个 Broker 上复制分区数据,保障了高可用性与数据持久性。每个分区包含 1 个 Leader 副本和若干 Follower 副本,所有读写由 Leader 处理.
大数据-62 Kafka Topic 管理与运维实战:命令详解 + 副本分配策略 + JavaAPI
本文系统介绍了 Kafka 中 kafka-topics.sh 脚本的使用方法,包括创建、查看、修改、删除主题以及增加分区等基本操作。同时深入解析了分区副本的分配策略,强调跨 Broker 和跨机架
大数据-61 Kafka 主题、分区与消费者机制详解:从基础概念到重平衡优化
Kafka通过Topic(主题)管理消息流,每个主题可按业务分类,如订单、日志等,并可设置副本因子、保留时间和清理策略。主题下的数据以Partition(分区)为基本存储单元,分布在不同Broker上
大数据-60 Kafka 消息消费与心跳机制详解:原理、流程及参数调优
Kafka 消息消费是数据从集群传递到应用的重要环节,由消费者(Consumer)和消费者组(Consumer Group)协作完成。消费者通过订阅或分配分区方式获取分区数据,采用拉取(Pull)
大数据-59 Kafka 拦截器全解析:原理、拦截链机制与自定义实现实战
Kafka 拦截器(Interceptor)是 Kafka 0.10 引入的重要扩展机制,用于在 Producer 和 Consumer 客户端中实现定制化逻辑。Producer 拦截器
下一页