华为云大数据智能数据湖FusionInsight 华为预计，到2025年全球每年新增数据存储量为180ZB，企业的数据利

华为预计，到2025年全球每年新增数据存储量为180ZB，企业的数据利用率将会达到86%。到2030年数据应用（包括大数据和AI）将会给全球带来13万亿美元的收益，为全球经济贡献16%的GDP增长。其中，传统行业将会成为未来10年数据应用增速最快、受益最大的主体。

未来是一个高速发展的时代，掌握最新最有用的信息就能赶上时代的风口，这时候就需要大数据分析，华为云大数据满足你企业对数据分析的一切需求。通过华为云大数据你可以掌握最新消息，了解行业动态。

智能数据湖FusionInsight 华为云大数据叫智能数据湖FusionInsight，基于Lakehouse湖仓一体架构，实现存算分离，让一份数据支持多种分析，让一个架构同时支持SQL、BI和AI。

功能作用： 1、支持最大2万+节点大规模集群，可集群联邦无限扩容；

2、可T+0实时增量更新同步，可毫秒级高效实时OLAP，缩短分析链路，实现实时数据湖；

3、通过HetuEngine打破多引擎、多源、跨地域的限制，消除数据孤岛，统一SQL接口融合分析，简化用数，全民BI；

4、支持在线滚动升级，无需拆集群、搬应用，使客户一个架构持续演进，十年无忧！

5、云原生数据湖：通过统一元数据，让数据全局可视；通过存算分离的企业级EC，降低TCO。通过高带宽大并发使大数据读写性能提高30%；通过大数据+AI容器，提升在科学计算、机器学习和AI推理的资源利用率。

6、DWS企业数仓：基于Shared-Nothing架构提供新一代开放的、全场景分析型数据仓库，支持2048节点扩展能力；多层级全并行计算引擎，可调度海量的算力资源，通过高效的指令效率，实现数据导入和分析；具备多层级容灾能力，稳定可靠，离线、半在线、在线扩容技术，从容应对多种扩容场景。 7、一站式数据湖治理中心，助力企业快速构建从数据接入到分析的E2E数据治理体系，统一数据标准，加速数据资产化。

DGC安装前准备工作如果您是第一次使用DGC，请参考准备工作章节，完成购买DGC实例、创建工作空间等一系列操作。然后找到对应的工作空间，即可开始数据开发与运营。

准备数据源在实际业务中，源端数据源大多为云下的MySQL、PostgreSQL、HBase、Hive等类型，您需要作如下准备：

 确保数据源所在的主机可以访问公网。  获取数据源的公网连接地址、数据库端口、数据库管理员用户及密码等信息。  确保防火墙规则出方向已开放数据库端口，允许数据传输到云上。准备好数据源之后，后续您可以通过数据集成将数据源迁移到数据湖底座中，然后再通过DGC进行数据开发、治理和运营等活动。

准备数据湖在使用DGC前，您需要根据业务场景选择符合需求的云服务作为DGC的数据湖底座，用于存储原始数据和数据开发过程中的数据，并进行后续的数据开发、治理和运营等活动。DGC平台当前支持的数据湖产品请参见DGC支持的数据源。

准备好数据湖之后，您可以通过创建数据连接将DGC与数据湖底座连接起来，然后进行1和2的操作。1和2的操作样例可参考步骤2：准备工作章节。

1、创建数据库在使用DGC数据集成将数据迁移上云之前，我们需要在目的端数据湖中创建目标数据库。根据数据湖治理落地流程，建议您在数据湖中为SDI层、DWI层、DWR层和DM层分别创建一个数据库，从而对数据进行分层分库。数据分层是后面在规范设计中将涉及到的概念，此处可先简单了解，在规范设计时将深入了解与操作。

您可以参考以下任一一种方式在数据湖中创建数据库。  您可以在DGC数据开发模块中，可视化方式创建数据库，具体操作请参见新建数据库章节。  您可以通过在DGC数据开发模块或数据湖产品的SQL编辑器上，开发并执行用于创建数据库的SQL脚本，从而创建数据库。在DGC数据开发模块开发脚本的具体操作请参见开发SQL脚本章节；数据湖产品的SQL编辑器上的具体操作请参见对应数据湖产品的帮助文档。 2、创建数据表在使用DGC数据集成将数据迁移上云之前，我们需要在目的端数据湖的SDI层数据库中创建一个目标表，用于存储原始数据。批量数据迁移场景下，关系型数据库之间的迁移和关系型数据库到Hive的迁移支持自动创建目标表，这种情况下可以不预先在目的端数据库中创建目标表。

您可以参考以下任一一种方式在数据湖中创建原始数据表。如果表字段个数较多，建议使用编写SQL脚本的方式创建表。  您可以在DGC数据开发模块中，可视化方式创建数据表，具体操作请参见新建数据表章节。  您可以通过在DGC数据开发模块或数据湖产品的SQL编辑器上，开发并执行用于创建数据表的SQL脚本，从而创建数据表。在DGC数据开发模块开发脚本的具体操作请参见开发SQL脚本章节；数据湖产品的SQL编辑器上的具体操作请参见对应数据湖产品的帮助文档。

使用教程：新建MRS Hive连接为例，介绍如何建立DGC与数据湖底座之间的数据连接。前提条件 1、在创建数据连接前，请确保您已创建所要连接的数据湖（如DGC所支持的数据库、云服务等）。（1）在创建DWS类型的数据连接前，您需要先在DWS服务中创建集群，并且具有密钥的查看权限。（2）在创建MRS HBase、MRS Hive、MRS Kafka、MRS Ranger、MRS Spark、MRS Pres类型的数据连接前，需确保您已购买MRS集群，并且在创建数据链接时已购买选择所需要的组件。（3）在创建RDS类型的数据连接前，请确保您已创建RDS数据库实例。DGC平台目仅支持RDS中的MySQL和PostgreSQL数据库引擎。 2、在创建数据连接前，请确保待连接的数据湖与DGC实例之间网络互通。（1）如果数据湖为云下的数据库，则需要通过公网或者专线打通网络，确保数据源所在的主机可以访问公网，并且防火墙规则已开放连接端口。（2）如果数据湖为云上服务（如DWS、MRS等），则网络互通需满足如下条件：  DGC实例（指DGC实例中的CDM集群）与云上服务处于不同区域的情况下，需要通过公网或者专线打通网络。  DGC实例（指DGC实例中的CDM集群）与云上服务同区域情况下，同虚拟私有云、同子网、同安全组的不同实例默认网络互通；如果同虚拟私有云但是子网或安全组不同，还需配置路由规则及安全组规则，配置路由规则请参见如何配置路由规则章节，配置安全组规则请参见如何配置安全组规则《虚拟私有云(VPC)使用指南》中的“安全组 > 添加安全组规则”章节。此外，您还必须确保该云服务的实例与DGC工作空间所属的企业项目必须相同，如果不同，您需要修改工作空间的企业项目。

创建数据连接 1、在DGC控制台首页，选择对应工作空间的“管理中心”模块，进入管理中心页面。图1 选择管理中心。

file 2、在管理中心页面，单击“数据连接”，进入数据连接页面。图2 创建数据连接 file 3、单击“创建数据连接”，在弹出的对话框中，选择“数据连接类型”为“MapReduce服务（MRS Hive）”，并参见表1配置相关参数。图3 创建数据连接 file

说明：为保证规范设计、数据质量、数据资产、数据服务等组件能够使用该连接，此处连接方式应配置为“通过代理连接”。

图4 MRS Hive连接配置参数 file

表1 MRS Hive数据连 file

4、单击“测试”，测试数据连接的连通性。如果无法连通，数据连接将无法创建。 5、测试通过后，单击“确定”，创建数据连接。

想了解更多的华为云产品相关信息，请联系我们：电话：950808按0转1 file

本文由博客群发一文多发等运营工具平台 OpenWrite 发布