华为预计,到2025年全球每年新增数据存储量为180ZB,企业的数据利用率将会达到86%。到2030年数据应用(包括大数据和AI)将会给全球带来13万亿美元的收益,为全球经济贡献16%的GDP增长。其中,传统行业将会成为未来10年数据应用增速最快、受益最大的主体。
未来是一个高速发展的时代,掌握最新最有用的信息就能赶上时代的风口,这时候就需要大数据分析,华为云大数据满足你企业对数据分析的一切需求。通过华为云大数据你可以掌握最新消息,了解行业动态。
智能数据湖FusionInsight 华为云大数据叫智能数据湖FusionInsight,基于Lakehouse湖仓一体架构,实现存算分离,让一份数据支持多种分析,让一个架构同时支持SQL、BI和AI。
功能作用: 1、支持最大2万+节点大规模集群,可集群联邦无限扩容;
2、可T+0实时增量更新同步,可毫秒级高效实时OLAP,缩短分析链路,实现实时数据湖;
3、通过HetuEngine打破多引擎、多源、跨地域的限制,消除数据孤岛,统一SQL接口融合分析,简化用数,全民BI;
4、支持在线滚动升级,无需拆集群、搬应用,使客户一个架构持续演进,十年无忧!
5、云原生数据湖:通过统一元数据,让数据全局可视;通过存算分离的企业级EC,降低TCO。通过高带宽大并发使大数据读写性能提高30%;通过大数据+AI容器,提升在科学计算、机器学习和AI推理的资源利用率。
6、DWS企业数仓:基于Shared-Nothing架构提供新一代开放的、全场景分析型数据仓库,支持2048节点扩展能力;多层级全并行计算引擎,可调度海量的算力资源,通过高效的指令效率,实现数据导入和分析;具备多层级容灾能力,稳定可靠,离线、半在线、在线扩容技术,从容应对多种扩容场景。 7、一站式数据湖治理中心,助力企业快速构建从数据接入到分析的E2E数据治理体系,统一数据标准,加速数据资产化。
DGC安装前准备工作 如果您是第一次使用DGC,请参考准备工作章节,完成购买DGC实例、创建工作空间等一系列操作。然后找到对应的工作空间,即可开始数据开发与运营。
准备数据源 在实际业务中,源端数据源大多为云下的MySQL、PostgreSQL、HBase、Hive等类型,您需要作如下准备:
确保数据源所在的主机可以访问公网。 获取数据源的公网连接地址、数据库端口、数据库管理员用户及密码等信息。 确保防火墙规则出方向已开放数据库端口,允许数据传输到云上。 准备好数据源之后,后续您可以通过数据集成将数据源迁移到数据湖底座中,然后再通过DGC进行数据开发、治理和运营等活动。
准备数据湖 在使用DGC前,您需要根据业务场景选择符合需求的云服务作为DGC的数据湖底座,用于存储原始数据和数据开发过程中的数据,并进行后续的数据开发、治理和运营等活动。DGC平台当前支持的数据湖产品请参见DGC支持的数据源。
准备好数据湖之后,您可以通过创建数据连接将DGC与数据湖底座连接起来,然后进行1和2的操作。1和2的操作样例可参考步骤2:准备工作章节。
1、创建数据库 在使用DGC数据集成将数据迁移上云之前,我们需要在目的端数据湖中创建目标数据库。根据数据湖治理落地流程,建议您在数据湖中为SDI层、DWI层、DWR层和DM层分别创建一个数据库,从而对数据进行分层分库。数据分层是后面在规范设计中将涉及到的概念,此处可先简单了解,在规范设计时将深入了解与操作。
您可以参考以下任一一种方式在数据湖中创建数据库。 您可以在DGC数据开发模块中,可视化方式创建数据库,具体操作请参见新建数据库章节。 您可以通过在DGC数据开发模块或数据湖产品的SQL编辑器上,开发并执行用于创建数据库的SQL脚本,从而创建数据库。在DGC数据开发模块开发脚本的具体操作请参见开发SQL脚本章节;数据湖产品的SQL编辑器上的具体操作请参见对应数据湖产品的帮助文档。 2、创建数据表 在使用DGC数据集成将数据迁移上云之前,我们需要在目的端数据湖的SDI层数据库中创建一个目标表,用于存储原始数据。批量数据迁移场景下,关系型数据库之间的迁移和关系型数据库到Hive的迁移支持自动创建目标表,这种情况下可以不预先在目的端数据库中创建目标表。
您可以参考以下任一一种方式在数据湖中创建原始数据表。如果表字段个数较多,建议使用编写SQL脚本的方式创建表。 您可以在DGC数据开发模块中,可视化方式创建数据表,具体操作请参见新建数据表章节。 您可以通过在DGC数据开发模块或数据湖产品的SQL编辑器上,开发并执行用于创建数据表的SQL脚本,从而创建数据表。在DGC数据开发模块开发脚本的具体操作请参见开发SQL脚本章节;数据湖产品的SQL编辑器上的具体操作请参见对应数据湖产品的帮助文档。
使用教程: 新建MRS Hive连接为例,介绍如何建立DGC与数据湖底座之间的数据连接。 前提条件 1、在创建数据连接前,请确保您已创建所要连接的数据湖(如DGC所支持的数据库、云服务等)。 (1)在创建DWS类型的数据连接前,您需要先在DWS服务中创建集群,并且具有密钥的查看权限。 (2)在创建MRS HBase、MRS Hive、MRS Kafka、MRS Ranger、MRS Spark、MRS Pres类型的数据连接前,需确保您已购买MRS集群,并且在创建数据链接时已购买选择所需要的组件。 (3)在创建RDS类型的数据连接前,请确保您已创建RDS数据库实例。DGC平台目仅支持RDS中的MySQL和PostgreSQL数据库引擎。 2、在创建数据连接前,请确保待连接的数据湖与DGC实例之间网络互通。 (1)如果数据湖为云下的数据库,则需要通过公网或者专线打通网络,确保数据源所在的主机可以访问公网,并且防火墙规则已开放连接端口。 (2)如果数据湖为云上服务(如DWS、MRS等),则网络互通需满足如下条件: DGC实例(指DGC实例中的CDM集群)与云上服务处于不同区域的情况下,需要通过公网或者专线打通网络。 DGC实例(指DGC实例中的CDM集群)与云上服务同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但是子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见如何配置路由规则章节,配置安全组规则请参见如何配置安全组规则《虚拟私有云(VPC)使用指南》中的“安全组 > 添加安全组规则”章节。 此外,您还必须确保该云服务的实例与DGC工作空间所属的企业项目必须相同,如果不同,您需要修改工作空间的企业项目。
创建数据连接 1、在DGC控制台首页,选择对应工作空间的“管理中心”模块,进入管理中心页面。 图1 选择管理中心。
2、在管理中心页面,单击“数据连接”,进入数据连接页面。
图2 创建数据连接
3、单击“创建数据连接”,在弹出的对话框中,选择“数据连接类型”为“MapReduce服务(MRS Hive)”,并参见表1配置相关参数。
图3 创建数据连接
说明: 为保证规范设计、数据质量、数据资产、数据服务等组件能够使用该连接,此处连接方式应配置为“通过代理连接”。
图4 MRS Hive连接配置参数
表1 MRS Hive数据连
4、单击“测试”,测试数据连接的连通性。如果无法连通,数据连接将无法创建。 5、测试通过后,单击“确定”,创建数据连接。
想了解更多的华为云产品相关信息,请联系我们:
电话:950808按0转1
本文由博客群发一文多发等运营工具平台 OpenWrite 发布