首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Hadoop
涤生大数据
创建于2022-05-28
订阅专栏
Hadoop
等 1 人订阅
共11篇文章
创建于2022-05-28
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
数仓建模本质到底是什么?为什么维度建能模脱颖而出?
作者基于多年的大数据处理经验,当前管理着100PB+数据仓库和2000+节点的集群。持续系统化给大家分享一下关于数据仓库建设的经验总结。本系列既有数据仓库的形而上学理论体系,也有结合公司业务的实践,既有大厂如阿里巴巴,京东,头条的分享交流,也有小公司数仓迭代案例...
HDFS:一篇文章彻底搞定跨集群跨版本distcp的使用
1. distcp是一个hdfs提供的工具。distcp(分布式复制)是一种用于大型集群间/集群内复制的工具,且支持不同hadoop版本间的数据传输复制。它使用 MapReduce 来实现其分布、错误处理和恢复以及报告。它将文件和目录列表扩展为map任务的输入(一个只...
大数据开发必会!Yarn日志查看:Task容错机制,任务推测执行,计数器
背景:yarn的web界面是所有大数据开发都会或多或少查看的,比如任务运行失败,任务运行缓慢,查看详细任务运行进度,详细报错排查,debug等。但是实际从反馈来看,很多大数据开发对yarn界面的日志查看并不深入,对一些常见指标并不熟悉。下面以Hive/MapRedcue任务为例。...
深入YARN系列3:剖析NodeManager架构,组件与生产应用
1.1.1.每个节点有一个NM守护进程,负责本节点的资源管理。其资源分配主要体现在Container模式上,根据RM分配资源。其次NM负责本地可用资源的监控,故障报告,以及Container的生命周期管理等。1.每个提交的应用程序都有一个AM的守护进程,客户端每使用YARN客户端...
深入YARN系列2:剖析ResourceManager的架构与组件使用
1.1.1.每个节点有一个NM守护进程,负责本节点的资源管理。其资源分配主要体现在Container模式上,根据RM分配资源。其次NM负责本地可用资源的监控,故障报告,以及Container的生命周期管理等。1.每个提交的应用程序都有一个AM的守护进程,客户端每使用YARN客户端...
深入YARN系列1:窥全貌之YARN架构,设计,通信原理等
1. YARN的总体架构模式是Master/Slave主从模式。一个全局的ResourceManager ( RM,主 ,可以多个HA),多个NodeManager共同构成计算框架。 NodeManager (NM)是每台机器的框架代理,管理单个节点的资源和任务,比...
HDFS:如何提高节点下线速度或避免因节点掉线产生网络风暴?
背景:老集群上千节点,存储60PB数据,因为历史原因,节点配置不一;为了节省成本最早一批节点挂载了32块盘,单节点磁盘空间250TB左右,负载在150TB左右,存储block数240万块左右,集群带宽限制480GB/s,标准节点配置是12*8T,当前存储数据50-60TB,blo...
HDFS:为啥集群小文件治理那么重要,你真的懂吗?
小文件是 Hadoop 集群运维中的常见挑战,尤其对于大规模运行的集群来说可谓至关重要。如果处理不好,可能会导致许多并发症。Hadoop集群本质是为了TB,PB规模的数据存储和计算因运而生的。为啥大数据开发都说小文件的治理重要,说HDFS 存储小文件效率低下,比如...
上千生产节点的JournalNode下线,以及上线异常问题解决
背景: 集群规模上千节点,5台JournalNode节点,现在因为需要维修,下线其中一台JournalNode进行维修。1. 在namenode的HA机制下,两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。JournalN...
Hadoop:大数据架构师必备!Fair Scheduler和Capacity Scheduler调度器
1. 公司集群上千物理节点,存储容量100PB+,当前使用50PB左右,YARN的计算内存150Tb+,CPU 30000 Cores+。当前使用的CDH集群,因为性能瓶颈,需要迁移到自建的apache Hadoop3集群。CDH集群默认的是Fair Schedule...
Hadoop:集群出现块丢失,块找回,以及相关底层原理,fsck等
1. 集群报块丢失的原因很多,如物理磁盘损坏,节点不正常下线退役,集群高负载时如内存打满卡死,网络拥堵,系统本身问题等造成节点掉线,如cdh集群的agent和server失去联系,非正常下线,心跳超时等原因造成yarn界面出现块丢失现象。1.1. 所有Datan...