首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据一锅端
武子康
创建于2024-10-12
订阅专栏
详细记录大数据的踩坑,包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件,覆盖离线+实时数仓全栈。让我们一起无限进步!
等 20 人订阅
共157篇文章
创建于2024-10-12
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据-18 Flume HelloWorld 实现Source Channel Sink 控制台流式收集
Apache Flume 是一个高可用、可扩展的日志采集系统,广泛应用于大数据环境中,支持将日志数据高效传输至 HDFS、Kafka 等目标系统。
大数据-17 Flume 分布式日志收集 实时采集引擎 Source Channel Sink 串行复制负载均衡
Flume 是一个分布式、高可靠的日志采集系统,广泛用于大数据环境中日志数据的实时传输和汇聚。它的核心架构由 Source(数据源)、Channel(缓冲通道)和 Sink(数据输出)三大组件组成。
大数据-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog
HiveServer2(HS2)是Hive提供的服务端组件,允许远程客户端通过Thrift协议执行SQL查询并返回结果,支持跨平台、跨语言访问。为了部署HS2,需要配置Hadoop集群节点
大数据-15-Hive 元数据管理与存储 Metastore Metadata 内嵌模式 本地模式 远程模式
Hive 的 Metastore 是管理元数据的核心组件,用于描述表结构与文件映射关系,是 SQL 查询能准确定位数据文件的基础。Metastore 有三种部署模式。
大数据-14-Hive HQL 表连接查询 HDFS导入导出 逻辑运算 函数查询 全表查询
导入方面,常见方式包括 LOAD DATA 将本地或 HDFS 文件载入表中,INSERT 用于结构化插入查询结果,以及通过外部表读取 HDFS 中已存在的数据。
大数据-13-Hive 启动Hive DDL DML 增删改查 操作Hive的HQL
通过在命令行输入 hive 进入交互式界面后,用户可执行数据定义语言(DDL)操作,如创建/删除数据库与表,支持内部表和外部表管理。随后介绍了数据操作语言(DML),包括从本地或 HDFS 加载数据
大数据-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
Hive 是基于 Hadoop 的数据仓库,能将 SQL 转换为 MapReduce 执行,适合海量日志分析任务。我们在 h122 节点上部署 Hive,配置了环境变量,并将元数据存储。
大数据-11-MapReduce JOIN 操作的Java实现 Driver Mapper Reducer具体实现逻辑 模拟SQL进行联表操作
MapReduce 中常见的 JOIN 操作包括 Reduce-Side Join、Map-Side Join、Semi-Join 和 Bloom Join。
大数据-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带PO
本文介绍了 Hadoop MapReduce 的基本执行流程与开发规范,并结合 WordCount 实战演示了完整的编程实现。解释了为何 Hadoop 使用自定义的 Writable 序列化机制。
大数据-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示
HDFS Java Client 是 Java 程序访问 HDFS 的主要方式,支持文件的上传、下载、读取、删除等操作。其关键类包括 FileSystem、Path 和 Configuration等等
大数据-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程
本文简要介绍了 Hadoop 分布式文件系统(HDFS)常用的命令操作。首先,通过 start-dfs.sh 和 start-yarn.sh 启动集群服务,然后使用 hadoop fs 系列命令。
大数据-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
本节介绍了 Hadoop 核心组件 HDFS(分布式文件系统)的架构与机制。HDFS 采用典型的 Master/Slave 架构,由 NameNode 管理元数据,DataNode 负责数据存储。
大数据-06-Hadoop集群 历史服务器配置 超详细 执行任务记录 JobHistoryServer MapReduce执行记录 日志聚合结果可视化查看
这篇文章记录了作者在三台公网云服务器(两台2C4G,一台2C2G)上搭建Hadoop学习环境的实践过程,重点介绍了JobHistoryServer(JHS)配置与日志聚合功能的实现。
大数据-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
本文介绍了如何在三台公网云服务器(两台2C4G、一台2C2G)上搭建Hadoop学习环境,并完成了HDFS的基本操作和MapReduce的典型示例——WordCount程序的运行。
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI
终于到了集群启动的时刻!点火!三台公网云服务器,每台 2C4G,NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建
这里是三台公网云服务器,每台 2C4G,搭建一个Hadoop的学习环境,供我学习。之前已经在 VM 虚拟机上搭建过一次,但是没留下笔记,这次趁着前几天薅羊毛的3台机器,赶紧尝试在公网上搭建体验一下。
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn Map
上一节顺利完成了基础环境的配置,但是对于Hadoop来说,目前还有一些XML的配置需要我们修改,这样后续才能组装成集群来运行。