自用华为ICT云赛道Big Data第七章知识点-华为MRS
大数据技术演进趋势

华为MRS服务
- MRS(MapReduce Service,MapReduce服务)是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群。
- MRS提供租户完全可控的一站式企业级大数据集群云服务,完全兼容开源接口,结合华为云计算、存储优势及大数据行业经验,为客户提供高性能、低成本、灵活易用的全栈大数据平台,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件,并具备在后续根据业务需要进行定制开发的能力,帮助企业快速构建海量数据信息处理系统,并通过对海量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机。
MRS架构

MRS应用场景

MRS在混合云中的地位一FusionInsight智能数据湖的数据基座

Hudi
- Hudi是Apache在2019年推出的开源项目,在2020年成为Apache顶级项目。
- 华为在2020年参与Hudi相关社区工作,同时FusionInsight产品中对Hudi进行产品化。
- Hudi是一种数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力。支持多种计算引I擎,提供IUD接口,在HDFS的数据集上提供了插入更新和增量拉取的流原语。
- Hudi是数据湖的文件组织层,对Parquet格式文件进行管理提供数据湖能力,支持计算引擎,提供IUD接口。
Hudi的主要特性
- 通过插拔式索引支持快速Update操作
- 数据写入与数据查询支持Snapshot隔离委
- 基于统计信息管理文件大小和布局
- 支持Timeline
- 支持数据回滚
- 支持数据恢复的Savepoints
- 异步数据合并
- 通过clustering机制优化数据湖存储
Hudi架构:批量与实时入湖、兼容多生态组件、存储格式开源
- 存储模式
- COW模式:写时复制,写相对MOR慢,读性能高
- MOR模式:读时Merge,写性能高,读性能略低
- 存储格式:
- 存储格式支持开源Parquet、Hfile格式,ORC计划中
- 存储引擎:
- 视图

大数据生态缺乏支持交互式查询、统一SQL访问能力

HetuEngine
- HetuEngine是华为自研高性能分布式SQL查询&数据虚拟化引擎。与大数据生态无缝融合,实现海量数据秒级查询;支持多源异构协同,使能数据湖内一站式SQL融合分析。

开源社区版与HetuEngine的对比

Ranger
- ApacheRanger提供一个集中式安全管理框架,提供统一授权和统一审计能力。它可以对整个Hadoop生态中如HDFS、Hive、HBase、Kafka、Storm等进行细粒度的数据访问控制。用户可以利用Ranger提供的前端WebUl控制台通过配置相关策略来控制用户对这些组件的访问权限。
Ranger结构

Ranger与其他组件的关系
- Ranger为组件提供基于PBAC的鉴权插件,供组件服务端运行,目前支持Ranger鉴权的组件有HDFS、Yarn、Hive、HBase、Kafka、Storm和Spark2x,后续会支持更多组件。

LDAP
- LDAP是轻量目录访问协议(Lightweight DirectoryAccess Protocol)的缩写,是一种基于X.500目录访问协议的集中账号管理架构的实现协议标准。
- 华为大数据解决方案中,LdapServer作为目录服务系统,实现了对大数据平台的集中账号管理。
- LDAP协议的特点如下:
- LDAP运行在TCP/IP或其他面向连接的传输服务之上。
- LDAP同时是一个IETF标准跟踪协议,在“轻量级目录访问协议(LDAP)技术规范路线图”RFC4510中被指定。
Kerberos
- Kerberos这一名词来源于希腊神话“三个头的狗一一地狱之门守护者”,后来沿用作为安全认证的概念,该系统设计上采用客户端/服务器结构与DES、AES等加密技术,并且能够进行相互认证,即客户端和服务器端均可对对方进行身份认证。
- 华为大数据平台中使用KrbServer为所有组件提供了Kerberos功能。为了管理集群中数据与资源的访问控制权限,推荐以安全模式安装集群。在安全模式下,客户端应用程序在访问集群中的任意资源之前均需要通过身份认证,建立安全会话链接。MRS通过KrbServer为所有组件提供Kerberos认证功能,实现了可靠的认证机制。
华为安全认证场景架构

LDAP+Kerberos开源增强特性
- 集群内服务认证
- 在使用安全模式的MRS集群中,任意服务间的相互访问基于Kerberos安全架构方案。集群内某个服务(例如HDFS)在启动准备阶段的时候,会首先在Kerberos中获取该服务对应的服务名称sessionkey(即keytab,用于应用程序进行身份认证)。其他任意服务(例如YARN)需要访问HDFS并在HDFS中执行增、删、改、查数据的操作时,必须获取对应的TGT和ST,用于本次安全访问的认证。
- 应用开发认证
- MRS各组件提供了应用开发接口,用于客户或者上层业务产品集群使用。在应用开发过程中,安全模式的集群提供了特定的应用开发认证接口,用于应用程序的安全认证与访问。
- 跨系统互信特性
- MRS提供两个Manager之间的互信功能,用于实现系统之间的数据读、写等操作。
华为云StackFusionInsightMRS云原生数据湖基线方案全景图
- MRS数据湖解决方案,实现“三湖+集市”业务场景,满足客户建设数据湖过程中不同各阶段的需求。

离线数据湖
- 数据湖:企业内多种格式数据源汇聚的大数据平台,通过严格的数据权限和资源管控,将数据和算力开放给各种使用者,为数据湖。一份数据支持多种分析,是数据湖最大的特点。
- 离线:数据从数据源产生后到进入到数据湖存储,无法做到实时,通常超过15分钟,为离线。

实时数据湖
- 数据湖:企业内多种格式数据源汇聚的大数据平台,通过严格的数据权限和资源管控,将数据和算力开放给各种使用者,为数据湖。一份数据支持多种分析,是数据湖最大的特点。
- 实时:数据从数据源产生后,可以实时进入到数据湖存储,通常1分钟以内,为实时,1到15分钟之内,为准实时。

逻辑数据湖
- 数据湖:企业内多种格式数据源汇聚的大数据平台,通过严格的数据权限和资源管控,将数据和算力开放给各种使用者,为数据湖。
- 逻辑数据湖:数据并不是在物理上汇聚到了一个数据平台上,而是若干个物理分开的数据平台形成一个虚拟数据湖,称为逻辑数据湖。

XX银行:滚动升级业务无中断,存算分离架构更灵活,HetuEngine实现即时BI

XX医保:构建省部统一的医保离线数据湖,实现医保“大决策”,守护全民健康

MRS优势

缩略语
- Bl:Business Intelligence,商业智能
- ETL:Extract、Transform、Load,数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程
- Al:Artificial Intelligence,人工智能
- DWS:DataWarehouse Service,数据仓库服务
- ES:ElasticSearch,分布式全文检索服务
- OBS:Object Storage Service,对象存储服务
- ORC:OptimizedRC File,ORC(OptimizedRC File)也是Apache 的顶级项目,也是自描述的列存储
- COW:CopyOn Write,写时复制表也简称cow表
- MOR:Merge OnRead,读时合并表也简称mor表
- UDF:User Defined Functions,用户自定义函数
- TCO:Total Cost of Ownership,总体拥有成本
- ODS:Operational Data Store,贴源层数据
- CDM:Cloud Data Migration,云数据迁移
- ADS:Anti-DDoSService,华为云DDoS防护服务