首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据一锅端
武子康
创建于2024-10-12
订阅专栏
详细记录大数据的踩坑,包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件,覆盖离线+实时数仓全栈。让我们一起无限进步!
等 20 人订阅
共157篇文章
创建于2024-10-12
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据-38 Redis 分布式缓存 详细介绍 缓存、读写、旁路、穿透模式
Redis 是一个开源的高性能键值对存储系统,广泛用于缓存、数据库和消息中间件等场景。它基于内存存储,支持多种数据结构(如字符串、哈希、列表、集合、有序集合等),并具备高吞吐、低延迟的特性。
大数据-37 HBase Java API POM 增删改查 详细代码
HBase Java API 从创建 Maven 工程到操作 HBase 表的完整流程。首先,通过添加 hbase-client 依赖配置 POM 文件,然后连接 ZooKeeper 并创建
大数据-36 HBase 增删改查 列族详解 实测
在 HBase 中,列由“列族:列限定符”组成,列族是最小的物理存储单位,直接决定数据的压缩、缓存和生命周期策略。合理划分列族至关重要,建议列族数量越少越好,以避免频繁的内存刷新
大数据-35 HBase 集群模式 配置和启动3节点集群
本节内容介绍了如何将 HBase 从单节点扩展为三节点集群运行。在前一节完成 h121 上的单节点配置后,接下来需将相同的环境同步至 h122 和 h123 节点
大数据-34 HBase 单节点配置 hbase-env hbase-site xml
首先通过官网下载或使用 wget 命令获取压缩包,并解压至指定目录。随后,为保证 HBase 能正常与 Hadoop 集成运行,需将 Hadoop 的核心配置文件 core-site.xml
大数据-33 HBase 整体架构 HMaster HRegion
HBase 是基于 Google BigTable 设计的分布式列式数据库,擅长处理 PB 级别的海量数据,支持高并发、低延迟的随机读写。与传统关系型数据库相比,HBase 采用列族存储。
大数据-32 ZooKeeper 分布式锁 Java 附带案例 代码
ZooKeeper 是一个高性能的分布式协调服务,主要用于解决分布式系统中的数据一致性与协调问题。其核心特性包括:提供顺序一致性、原子性、单一系统镜像、可靠性与及时性保障;数据模型采用类似 Unix
大数据-31 ZooKeeper 内部原理 Leader选举 ZAB协议
ZooKeeper 采用 ZAB 协议实现强一致性的分布式协调服务,其中 Leader 选举是保障系统稳定的关键机制。初次启动时,各节点根据自身 ID 和事务历史进行投票,须获得半数以上节点支持才能成
大数据-30 ZooKeeper Java-API 监听节点 创建、删除节点
核心特性包括分布式一致性保障(如顺序性、原子性、单一视图等)、类Unix结构的数据模型(ZNode Tree)、以及事件驱动的一次性监听机制(Watcher)。典型应用如 Dubbo 的服务注册。
大数据-29 ZooKeeper 节点 Watcher原理 实践指南
ZooKeeper 的 Watcher 机制是一种轻量级、事件驱动的分布式监听机制,支持客户端对节点(znode)变化进行一次性监听。
大数据-28 ZooKeeper集群 ZNode 数据结构与监听机制 Watcher机制
ZooKeeper 是一款高性能的分布式协调服务,常用于服务注册、配置管理、分布式锁等场景。其核心优势在于提供分布式一致性保证,具备顺序一致性、原子性和高可靠性。
大数据-27 ZooKeeper zoo.cfg多节点分布式配置
ZooKeeper 是一个分布式协调服务,具备顺序一致性、原子性和高可靠性,广泛应用于命名服务、配置管理、分布式锁和集群选主等场景。
大数据-26 ZooKeeper 分布式协调框架 简介与配置 Leader Follower Observer
ZooKeeper 是一个高可用的分布式协调服务,具备顺序一致性、原子性、可靠性等特性,广泛应用于分布式系统中的命名服务、配置管理、分布式锁、消息队列和主节点选举等场景。
大数据-25 Sqoop 增量数据导入 CDC 变化数据捕获 差量同步数据
CDC(变化数据捕获)是一种高效的数据同步技术,用于捕捉数据库中的增量变更,避免全量同步带来的性能开销。在大数据场景中,CDC可实现近实时的数据湖/数仓构建、微服务事件驱动设计。
大数据-24 Sqoop MySQL到Hive 与 Hive到MySQL JDBC ETL MapReduce
Sqoop 实现 MySQL 与 Hive 之间的数据导入导出操作。首先,在 Hive 中创建了名为 mydb.goodtbl 的表,并通过 Sqoop 执行导入命令将 MySQL 中。
大数据-23 Sqoop 数据MySQL到HDFS(部分) JDBC ETL MapReduce
Apache Sqoop 是一款用于在关系型数据库(如 MySQL)与 Hadoop 生态系统(如 HDFS、Hive、HBase)之间高效传输数据的工具,主要支持批量导入(Import)
大数据-22 Sqoop 数据MySQL到HDFS集群 JDBC ETL MapReduce
Apache Sqoop 是一个用于在关系型数据库(如 MySQL)与 Hadoop 系统(如 HDFS、Hive、HBase)之间高效批量传输数据的工具,主要基于 MapReduce 实现。
大数据-21 Sqoop 数据迁移 ETL工具 MySQL与Hive数据互相迁移 导入导出
Apache Sqoop 是一款开源工具,主要用于在关系型数据库(如 MySQL、Oracle)与 Hadoop(HDFS、Hive、HBase)之间高效传输数据。
大数据-20-Flume 采集数据双写+HDFS 监控目录变化 Agent MemoryChannel Source
Apache Flume 是一个分布式、高可靠的日志采集框架,常用于将日志从本地系统采集并传输至如 HDFS、Kafka 等大数据系统。Flume 主要由 Source(数据源)、Channel
大数据-19 Flume Agent采集数据至HDFS集群 监听Hive日志 操作记录写入
Apache Flume 是一款分布式、高可用的数据采集系统,广泛应用于日志收集与传输场景。其核心架构由 Source、Channel 和 Sink 三大组件组成。
下一页