首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据一锅端
武子康
创建于2024-10-12
订阅专栏
详细记录大数据的踩坑,包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件,覆盖离线+实时数仓全栈。让我们一起无限进步!
等 10 人订阅
共107篇文章
创建于2024-10-12
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据-28 ZooKeeper集群 ZNode 数据结构与监听机制 Watcher机制
ZooKeeper 是一款高性能的分布式协调服务,常用于服务注册、配置管理、分布式锁等场景。其核心优势在于提供分布式一致性保证,具备顺序一致性、原子性和高可靠性。
大数据-27 ZooKeeper zoo.cfg多节点分布式配置
ZooKeeper 是一个分布式协调服务,具备顺序一致性、原子性和高可靠性,广泛应用于命名服务、配置管理、分布式锁和集群选主等场景。
大数据-26 ZooKeeper 分布式协调框架 简介与配置 Leader Follower Observer
ZooKeeper 是一个高可用的分布式协调服务,具备顺序一致性、原子性、可靠性等特性,广泛应用于分布式系统中的命名服务、配置管理、分布式锁、消息队列和主节点选举等场景。
大数据-25 Sqoop 增量数据导入 CDC 变化数据捕获 差量同步数据
CDC(变化数据捕获)是一种高效的数据同步技术,用于捕捉数据库中的增量变更,避免全量同步带来的性能开销。在大数据场景中,CDC可实现近实时的数据湖/数仓构建、微服务事件驱动设计。
大数据-24 Sqoop MySQL到Hive 与 Hive到MySQL JDBC ETL MapReduce
Sqoop 实现 MySQL 与 Hive 之间的数据导入导出操作。首先,在 Hive 中创建了名为 mydb.goodtbl 的表,并通过 Sqoop 执行导入命令将 MySQL 中。
大数据-23 Sqoop 数据MySQL到HDFS(部分) JDBC ETL MapReduce
Apache Sqoop 是一款用于在关系型数据库(如 MySQL)与 Hadoop 生态系统(如 HDFS、Hive、HBase)之间高效传输数据的工具,主要支持批量导入(Import)
大数据-22 Sqoop 数据MySQL到HDFS集群 JDBC ETL MapReduce
Apache Sqoop 是一个用于在关系型数据库(如 MySQL)与 Hadoop 系统(如 HDFS、Hive、HBase)之间高效批量传输数据的工具,主要基于 MapReduce 实现。
大数据-21 Sqoop 数据迁移 ETL工具 MySQL与Hive数据互相迁移 导入导出
Apache Sqoop 是一款开源工具,主要用于在关系型数据库(如 MySQL、Oracle)与 Hadoop(HDFS、Hive、HBase)之间高效传输数据。
大数据-20-Flume 采集数据双写+HDFS 监控目录变化 Agent MemoryChannel Source
Apache Flume 是一个分布式、高可靠的日志采集框架,常用于将日志从本地系统采集并传输至如 HDFS、Kafka 等大数据系统。Flume 主要由 Source(数据源)、Channel
大数据-19 Flume Agent采集数据至HDFS集群 监听Hive日志 操作记录写入
Apache Flume 是一款分布式、高可用的数据采集系统,广泛应用于日志收集与传输场景。其核心架构由 Source、Channel 和 Sink 三大组件组成。
大数据-18 Flume HelloWorld 实现Source Channel Sink 控制台流式收集
Apache Flume 是一个高可用、可扩展的日志采集系统,广泛应用于大数据环境中,支持将日志数据高效传输至 HDFS、Kafka 等目标系统。
大数据-17 Flume 分布式日志收集 实时采集引擎 Source Channel Sink 串行复制负载均衡
Flume 是一个分布式、高可靠的日志采集系统,广泛用于大数据环境中日志数据的实时传输和汇聚。它的核心架构由 Source(数据源)、Channel(缓冲通道)和 Sink(数据输出)三大组件组成。
大数据-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog
HiveServer2(HS2)是Hive提供的服务端组件,允许远程客户端通过Thrift协议执行SQL查询并返回结果,支持跨平台、跨语言访问。为了部署HS2,需要配置Hadoop集群节点
大数据-15-Hive 元数据管理与存储 Metastore Metadata 内嵌模式 本地模式 远程模式
Hive 的 Metastore 是管理元数据的核心组件,用于描述表结构与文件映射关系,是 SQL 查询能准确定位数据文件的基础。Metastore 有三种部署模式。
大数据-14-Hive HQL 表连接查询 HDFS导入导出 逻辑运算 函数查询 全表查询
导入方面,常见方式包括 LOAD DATA 将本地或 HDFS 文件载入表中,INSERT 用于结构化插入查询结果,以及通过外部表读取 HDFS 中已存在的数据。
大数据-13-Hive 启动Hive DDL DML 增删改查 操作Hive的HQL
通过在命令行输入 hive 进入交互式界面后,用户可执行数据定义语言(DDL)操作,如创建/删除数据库与表,支持内部表和外部表管理。随后介绍了数据操作语言(DML),包括从本地或 HDFS 加载数据
大数据-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
Hive 是基于 Hadoop 的数据仓库,能将 SQL 转换为 MapReduce 执行,适合海量日志分析任务。我们在 h122 节点上部署 Hive,配置了环境变量,并将元数据存储。
大数据-11-MapReduce JOIN 操作的Java实现 Driver Mapper Reducer具体实现逻辑 模拟SQL进行联表操作
MapReduce 中常见的 JOIN 操作包括 Reduce-Side Join、Map-Side Join、Semi-Join 和 Bloom Join。
大数据-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带PO
本文介绍了 Hadoop MapReduce 的基本执行流程与开发规范,并结合 WordCount 实战演示了完整的编程实现。解释了为何 Hadoop 使用自定义的 Writable 序列化机制。
大数据-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示
HDFS Java Client 是 Java 程序访问 HDFS 的主要方式,支持文件的上传、下载、读取、删除等操作。其关键类包括 FileSystem、Path 和 Configuration等等
下一页