走进Yarn资源管理和调度|青训营笔记

262 阅读10分钟

这是我参与「第四届青训营 」笔记创作活动的的第16天

  • Yarn概述
    • 初识调度系统
      • 解决的问题
        • 有限资源解决有限资源无法满足的需求时就需要调度
        • 调度系统主要解决资源请求和可用资源间的映射(Mapping)问题
      • 目标
        • 严格的多租户间公平、容量保障
        • 调度过程的高吞吐与低延迟
        • 高可靠性与高可用性
        • 高可扩展的调度策略
        • 高集群整体物理利用率
        • 满足上层任务的个性化调度需求
        • 任务持续、高效、稳定运行
      • 系统演进
        • 集中式
          • 融合资源管理调度和任务控制
        • 两层式
          • 资源管理调度和任务控制解耦
        • 共享状态式
          • 多个调度器基于乐观并发共享全局资源视图
        • 分布式
          • 多个调度器基于先验知识进行最快调度决策
        • 混合式
          • 多种类型调度器共存,共同分配
    • Yarn设计思想
      • 演化背景
        • Hadoop 1.0时代
          • 组件
            • MapReduce
            • HDFS
          • 特点
            • 可扩展性差
            • 可靠性差
            • 资源利用率低
            • 无法支持多种计算框架
        • Hadoop 2.0时代
          • 组件
            • MR
            • Storm
            • Yarn
            • HDFS
          • 特点
            • 资源管理和任务控制解耦
            • Yarn(Yet Another Resource Negotiator)
              • 支持多种计算框架的统一资源管理平台
      • 离线生态
        • User Logic
        • Workflow Hosting
        • Compute Engine
        • Resource Mgmt & Scheduling
          • Yarn
        • Bare Metal
      • 挑战
        • 公平性
          • 各租户能够公平的拿到资源运行任务
        • 高性能
          • 高调度吞吐、低调度延迟,保障资源快速流转
        • 高可用
          • 集群要具备很强的容错能力
        • 大规模
          • 单集群规模提升
        • 高集群资源利用率
        • 高任务运行质量保障
      • 整体架构
        • 系统架构
          • Resource Manager
            • 资源管理和调度
            • 任务生命周期管理
            • 对外进行交互
          • Node Manager
            • 提供集群资源
            • 管理Container运行
        • 任务运行生命周期核心流程
  • 核心模块
    • Resource Manager
      • 整体架构
        • ApplicationMasterService
        • AMLivelinessMonitor
        • ApplicationMasterLauncher
        • Resource Scheduler
        • State Machine
      • 主要职责
        • 负责集群所有资源的统一管理和分配,接收各节点汇报信息并按照一定策略分配给各个任务。
          • 与客户端交互
          • 启动和管理所有AM
          • 管理所有NM
          • 资源管理与调度
            • 组织资源(资源池)
            • 组织任务(队列)
            • 接收资源请求
            • 分配资源
      • 状态机管理
        • RMApp
          • NEW_SAVING
            • 收到任务后,创建RMAppImpl对象并将基本信息持久化
          • ACCEPTED
            • 调度器接受该任务后所处的状态,任务等待被分配资源
          • RUNNING
            • 任务成功获取到资源并在节点运行
        • RMAppAttempt
          • SCHEDULED
            • 通过合法性检查后所处的状态,开始为该任务分配资源
          • ALLOCATED_SAVING
            • 收到分配的Container后,在持久化完成前所处的状态
          • ALLOCATED
            • 信息持久化完成后所处的状态
          • LAUNCHED
            • RMApplicationMasterLauncherNM通信以启动AM时所处的状态
        • RMContainer
          • RESERVED
            • 开启资源预留时,当前节点不能满足资源请求时所处的状态
          • ALLOCATED
            • 调度器分配一个ContainerAM
          • ACQUIRED
            • ContainerAM领走后的状态
          • EXPIRED
            • AM获取到Container后,若在一定时间内未启动ContainerRM会强制回收该Container
        • RMNode
          • DECOMMISSIONED
            • 节点下线后的状态
          • UNHEALTHY
            • 节点处于不健康状态,健康检测脚本异常或磁盘故障
          • LOST
            • 节点超过一定时间(默认10min)未与RM发生心跳后所处的状态
      • 调度器分析
        • 任务/资源组织
          • 任务按队列组织
          • 节点按leader组织
        • 调度流程
          • AMRM心跳
            • 记录资源请求
          • 触发时机
            • 节点心跳
          • label
            • 获取所有队列
          • 找队列
            • 最"饥饿"队列优先
          • 找任务
            • 优先级高的任务优先
          • 找资源请求
            • 优先级高的请求优先
        • 典型调度器
          • 提供一种多租户资源分配方法,提高集群资源利用率减小集群管理成本
          • Fair Scheduler
            • 基于最大最小公平算法分配资源
            • Container请求资源粒度
              • 最小资源量的整数倍
          • Capacity Scheduler
            • 资源按比例分配给各队列,并添加各种限制
              • Container请求资源粒度
                • 专门的内存规整化参数控制,粒度更小
    • Node Manager
      • 整体架构
        • NodeStatusUpdater
        • Container Manager
        • Node Health Checker Service
        • State Machine
      • 主要职责
        • NM是节点代理,从AM接受命令(启停container)并执行,通过心跳方式从RM汇报节点状态并领取命令(清理Container)
          • RM交互
            • 心跳汇报节点状态
            • 领取RM下达的命令
          • AM交互
            • 启动容器
            • 停止容器
            • 获取容器状态
      • 状态机管理
        • Application
          • INITING
            • Application初始化状态,创建工作目录和日志目录
          • FINISHING_CONTAINERS_WAIT
            • 等待回收container所占用的资源所处的状态
          • APPLICATION_RESCOURCE_CLEANINGUP
            • Application所有container占用的资源被回收后所处的状态
        • container
          • LOCALIZING
            • 正在从HDFS下载依赖的资源
          • EXITED_WITH_SUCCESS
            • container运行脚本正常退出运行
          • CONTAINER_CLEANUP_AFTER_KILL
            • containerkill后所处的状态
        • LocalizedResource
          • DOWNLOADING
            • 资源处于下载状态
          • LOCALIZED
            • 资源下载失败
          • FAILED
            • 资源下载失败
      • 节点健康检查机制
        • 时刻掌握NM健康状况被及时汇报给RMRM根据NM是否健康决定是否为其调度新任务
          • 自定义shell
            • NodeHealthScriptRunner服务周期性执行节点健康状态检测脚本
            • 若输出以ERROR开头,则不健康
          • 检测磁盘损坏数目
            • 判断磁盘损坏标准:若一个目录具有读、写和执行权限,则目录正常
            • LocalDirsHandlerService服务周期性检测NM本地磁盘好坏,坏盘数超过阈值则不健康
  • 重要机制
    • 公平性保障
      • 调度策略
        • Fair Share
          • 调度策略背景
            • why
              • 实现队列间资源共享,提高资源利用率
              • 缓解繁忙队列压力
            • what
              • 队列空闲时按照一定策略将资源分配给其他活跃队列
            • 类型
              • Steady Fair Share
              • Instantaneous Fair Share
                • 计算逻辑
                  • 计算Total Resource
                  • 初始化R上限RMax
                  • 通过二分法寻找R[0,RMax]
                  • 计算Fair Share
        • DRF(Dominant Resource Fair)
          • why
            • 在保证公平性的前提下进行资源降维
          • what
            • DRF是最大最小公平算法在多维资源上的具体实现
            • 旨在使不同用户的"主分享量"最大化的保持公平
          • 最大最小公平算法
            • 最大化最小资源需求的满足度
              • 资源按照需求递增顺序分配
              • 获取的资源不超过自身需求
              • 未满足用户等价分享剩余资源
    • 高性能保障
      • 事件机制
        • 状态机管理
          • 状态机由一组状态(初始状态、中间状态和最终状态)组成,状态机从初始状态开始运行,接收一组特定事件,经过一系列中间状态后,到达最终状态并退出
          • 每种状态转换由一个四元组表示:转换前状态、转换后状态、事件和回调函数
          • Yarn定义了三种状态转换方式
            • 初始状态:最终状态:事件 = 1:1:1
            • 初始状态:最终状态:事件 = 1:N:1
            • 初始状态:最终状态:事件 = 1:1:N
        • 事件处理模型
          • Yarn采用了基于事件驱动的并发模型,具有很强的并发性,可提高系统性能
            • 所有处理请求都会作为事件进入系统
            • AsyncDispatcher负责传递事件给相应事件调度器
            • 事件调度器将事件转发给另一个事件调度器或带有有限状态机的事件处理器
            • 处理结果以事件形式输出,新事件会再次被转发,直至处理完成
    • 高可用保障
      • RM高可用
        • 热备方案
          • Active Master提供服务
          • Standby Master作为备节点
        • 基于共享存储的HA解决方案
          • 关键信息写入共享存储系统(zk)
        • 两种切换模式
          • 手动模式
            • yarn rmadmin命令手动操作
          • 自动模式
            • zkActiveStandbyElector进行选主操作,zk中有一个锁节点,所有rm竞争写一个子节点,zk保证最终只有一个rm能够创建成功,创建成功的为active master
        • Client、AM、NM自动重试
          • 切主时各组件采用round-robin方式尝试连接rm
      • NM高可用
        • 关键信息存储至leveldb数据库
        • 重启时从yam-nm-recovery下的leveldb数据库加载数据
  • 公司实践
    • gang调度器
      • why
        • 流式作业和训练作业的调度需求与批处理有很大的不同
          • 批处理强调高吞吐
          • 流式/训练类作业更强调低延迟和全局视角
        • 问题
          • 调度缺乏全局视角
          • app调度过慢
          • app间存在资源互锁
      • 特点
        • 全局视角
          • 作业可自定义配置强弱约束
          • 强约束
            • 必须要满足的条件
          • 弱约束
            • 尽量满足的约束
        • 低调度延迟
          • rm维护所有节点状态信息
          • 资源请求同步分配,毫秒级返回
        • gang性资源交付
          • 提供all-or-nothing语义
          • 可满足的请求全部分配,否则返回失败
        • 调度流程
          • 强约束阶段
            • 过滤掉不符合条件的节点
          • 弱约束阶段
            • 选择合适的节点分配资源
              • Quota平均
                • 分配后节点已使用资源尽可能平均
              • 跳过高load节点
                • 优先往低load节点调度
          • 兜底分配
    • 反调度器
      • why
        • 调度器的调度决策受“时空”限制
          • “时”
            • 触发调度时刻
          • “空”
            • 触发调度时集群状态
        • 任务运行和集群状态高动态性
          • 任务资源使用随流量变化而不断波动
          • 调度过程持续进行,集群状态持续变化
        • 需要持续保证最初调度决策的正确性
      • 反调度流程
        • 根据AM请求中的强约束,构造强约束集
        • 遍历强约束集选择不再符合强约束条件的节点
        • 遍历异常节点下的container,选择需要进行反调度的container
        • 将反调度container列表随心跳返回给AM
    • 反调度器与gang调度器的关系
      • 不同点
        • 发挥作用时机不同
        • 处理机制完全相反
      • 相同点
        • 反调度器是gang调度器的补充
        • 共同保障资源持续合理分配
    • 单集群规模提升
      • 原因
        • 更好的资源池化和资源共享
          • 资源池更大,利于资源分时复用
          • 资源高效共享,提高集群资源利用率
        • 降低运维成本
          • yarn原生单集群仅支持5k节点
          • 每多一个集群,运维负担就会加重
      • 瓶颈
        • RPC瓶颈
        • Dispatcher瓶颈
        • Scheduler瓶颈
      • 优化
        • 心跳反压机制
          • NM节点心跳周期改为根据RM的压力动态调整
        • 多线程调度
          • 对节点按hashcode放到对应的scheduler queue
        • 其他优化
          • 事件精简
            • 对内部事件梳理调整,精准修改了一些事件处理逻辑
          • 空转优化
            • 调度时过滤不需要资源的app,减少空转
          • 内存单位优化
            • 修改内存单位(int->long)突破单集群21亿MB限制
          • 切主优化
            • 通过对切主过程深度优化,将切主时间控制在秒级