Cloudera企业版简介
Cloudera 企业版是一个现代化的机器学习和数据分析平台,特性如下:
-
统一性
将数据仓库、数据科学、数据工程和操作型数据库功能集成到一处。不同的分析过程可以使用一个共享的数据目录进行操作,即 Cloudera SDX(Shared Data Experience,共享数据服务),共享数据目录提供如安全性、治理策略和模式等业务上下文。这个公共服务框架即使在临时的云环境中都可以部署,这样当业务层执行自助服务分析时,IT 部门也就更易设置和执行策略。
-
混合性
Cloudera 企业版为数据处理提供了灵活性,因为它可以直接读写云对象存储,比如 Amazon S3(AWS S3)、Azure 数据湖存储(Microsoft ADLS),也可以读写本地存储环境或者 IaaS(Infrastructure as a Service,基础设置即服务),无论数据在什么地方,都无需复制和移动;Cloudera 企业版提供强大的部署弹性,其支持的最流行的数据仓库和机器学习引擎可以部署在任何计算资源节点上;而混合控制则意味着,用户可以通过 PaaS(Platform as a Service,平台即服务)、IaaS(Infrastructure as a Service,基础设置即服务)、私有云或者本地部署来配置和管理 Cloudera 企业版并进行自助服务。
-
企业级
Cloudera 企业版满足企业级的数据工作负载所需的规模和性能,满足 IT 部门要求的安全性和治理需求,提供业界领先的计算引擎来处理数据,支撑成千上万的用户基于 PB 级数据进行查询、快速开发并提供数据模型;提供多层细粒度的安全性和完整的审计功能以拒绝未经授权的数据访问和认定操作责任。
Cloudera 企业版提供以下解决方案:
- 数据仓库;
- 数据科学;
- 数据工程;
- 操作型数据库;
- 基于云、多云、混合云和本地的部署。
1. 数据仓库
Cloudera 提供的现代数据仓库为高性能 BI 和数据建设提供支持。通过此平台,业务人员可以在没有 IT 部门的帮助下快速探索和迭代数据、查询报表以及交互式访问仪表盘 。而 IT 部门则可以通过将数据集市整合到一个可伸缩的分析平台来消除“数据孤岛”,从而更好地满足业务需求。通过此平台,数据可以被更多的用户(比如数据科学家和数据工程师)和工具访问,使用更低的成本来提供更多的价值。
| 组件 | 简介 |
|---|---|
| Apache Impala | 分布式的、交互式的 SQL 查询引擎,基于云对象存储、Apache Kudu(更新数据) 或者 HDFS 提供 BI 和 SQL 分析。 |
| Apache Hive on Spark | 提供大规模地、快速地 ETL/ELT,为 BI 和报表准备数据。 |
| SQL Development Workbench(HUE) | 支持数千 SQL 开发人员使用,每周运行百万次查询。 |
| Workload XM | 提高集群资源的利用率,优化查询和分析,预测未来的工作负载。 |
| Cloudera Navigator | 基于使用需求的可信数据发现、探索和治理。 |
2. 数据科学
Cloudera 提供现代企业平台、工具和专家指导,帮助用户通过机器学习和人工智能释放商业价值。用户可以使用 Coudera 的机器学习和分析平台高效地、安全地、大规模地构建和部署 AI 解决方案。Cloudera Fast Forward Labs 的专家可以帮助用户更快地实现 AI 的未来。
| 组件 | 简介 |
|---|---|
| Cloudera Data Science Workbench (CDSW) | 在机器学习和人工智能的协同平台上加速数据科学从研究到生产的过程。CDSW 动态识别 R、Python 和 Scala 运行时,可以和安全集成到 CDH 的 Apache Spark 组件高效集成。CDSW 支持 GPU 加速计算从而支持深度学习和其他数据科学技术,数据科学家可以使用 TensorFlow、Apache MXNet、Keras 等深度学习框架。 |
| Apache Spark | 提供灵活的、基于内存的数据处理,可靠的流处理和丰富的机器学习工具。 |
| Cloudera Fast Forward Labs | Cloudera Fast Forward Labs 帮助用户设计和执行企业机器学习策略,使新兴机器学习技术能够快速、实际地应用到业务中。Cloudera 专业服务提供可扩展的生产级机器学习系统。 |
3. 数据工程
Cloudera 数据工程支持快速灵活的 ETL 数据处理以及大规模机器学习训练模型。
| 组件 | 简介 |
|---|---|
| Apache Spark Spark Streaming Spark MLlib Spark SQL Hive on Spark | 利用Apache Spark,在单次操作中摄取所有数据、对其执行分析,然后将数据写入磁盘。使用这种先进的技术,可以比传统技术更快地完成作业处理。 |
| Altus Data Engineering | Cloudera 企业版是一个在公有云中进行数据科学和数据工程的综合平台,用户可以在多租户环境中启动多个工作负载,可以设计利用云基础设施进行特定工作(如 ETL 和探索性数据科学)。 |
| Workload XM | 提高集群资源的利用率,优化查询和分析,预测未来的工作负载。 |
| Cloudera Navigator | 提供了数据治理和管理的全面解决方案,具备强大的审计、数据血缘追踪、数据发现以及策略生命周期管理能力。 |
| Cloudera Navigator Encrypt & Key Trustee | 提供数据静态加密的功能,同时不需要对现有的应用程序进行任何修改,也不需要使用高级的密钥管理。 |
| HDFS YARN MapReduce Hive Pig HUE Sentry Flume Sqoop Oozie Kafka Cloudera Manager Cloudera Altus Director | 提供基础的 Hadoop 平台、管理工具和云部署工具,支持本地和云端的数据工程工作。 |
4. 操作型数据库
Cloudera 的操作型数据库提供了安全、低延迟、高并发的特性,支持从不断变化的数据中实时提取所需信息。操作型数据库汇集并处理来自更多来源(包括物联网)的各种类型的数据,以在专为网络规模设计的单一平台上推动业务洞察。为确保开发人员能够交付业务价值,实时、批处理和交互式处理框架为他们提供了各种工具。随着数据集、数据驱动的应用程序和数据用户的增长,Cloudera 的操作型数据库以可管理的成本提供了性能上的线性可伸缩性。
| 组件 | 简介 |
|---|---|
| Apache Spark | 提供灵活的、基于内存的数据处理,可靠的流处理和丰富的机器学习工具。 |
| Apache Kudu | Kudu 是 Hadoop 的原生存储,用于对快速数据进行快速分析。它通过为构建实时分析应用提供简化架构,对 HDFS 和HBase 的功能进行了补充。其设计旨在利用英特尔的新一代硬件的进展实现更快的分析性能。Kudu 与 Apache Impala 结合使用可以提供一个高性能的分析数据库解决方案;Kudu 与 Cloudera 企业版中的其他框架进行了集成。 |
| Apache HBase | 基于 Hadoop 的高性能 NoSQL 数据库。与 HDFS 类似,它提供了灵活的数据存储,可以以任何格式存储任何类型的数据。HBase 是为快速、随机的读写访问而设计的,当用户数量很多且需要低延迟的读写能力时,HBase 可以提供实时数据服务。由于其半结构化的行格式、高性能以及存储所有原始和聚合数据的能力,它还可以用于实时数据捕获和分析。由于 HBase 是 Cloudera 企业平台的一个集成部分,用户可以通过 Cloudera Manager 来管理它,它包含了安全特性(包括表、列和单元格级别的安全),符合法规要求。 |
5. 基于云、多云、混合云和本地的部署
公有云为敏捷分析和自助服务提供了机会。然而,为了降低风险和成本,追求混合云和多云环境是有意义的。Cloudera 企业版补充了公共云服务,并保留了用户的选择权利。 其解决方案提供简单的工作集中特性和统一的安全和治理等企业级特性。 此外,Cloudear 的云解决方案有效地提供了机器学习和分析功能,以便用户利用数据的优势。
| 组件 | 简介 |
|---|---|
| Cloudera Altus and Cloudera Data Engineering | 该产品针对 Amazon Web Services 和 Microsoft Azure 提供机器学习和分析的 PaaS(Platform as a Service,平台即服务)。面向 ETL 和管道开发等基础数据处理作业,减轻集群管理的负担,使数据工程师能够专注于专业工作。 |
| Cloudera Altus Director | 为数据工程、数据仓库、操作数据库提供云环境并进行管理,或在云中运行 CDSW。Cloudera 共享数据体验为本地和多个云中的数据目录、治理和安全性提供统一且持久的控制。 |
6. 文档说明
| 章节 | 说明 |
|---|---|
| 第一章 概述 | 提供 Cloudera 解决方案及其相关文档的介绍。以及介绍如何在部署之前创建一个概念验证安装用于测试应用程序。 |
| 第二章 企业发行版指南 | Cloudera 企业版产品的综合发布说明、要求、支持版本、打包和下载信息,以及已弃用的项目信息。 |
| 第三章 安装部署 | 介绍如何安装部署 Cloudera Manager、CDH 和其他管理服务。 |
| 第四章 升级 | 提供完整的 CDH 升级指导文档,包括操作系统、JDK、底层数据库等所有支撑平台软件的升级。 |
| 第五章 集群管理 | 描述如何使用 Cloudera Manager 在 Cloudera 企业版部署中配置和管理集群。此外,本章还将展示如何使用 Cloudera Manager 来监控 Cloudera 部署的健康状况,在问题发生时诊断问题,并使用或查看日志和报告来解决与配置、操作和合规性相关的问题。 |
| 第六章 安全 | 提供有关使用数据加密、用户身份验证和授权技术保护集群的信息。 |
| 第七章 治理和元数据管理 | 提供有关使用 Cloudera Navigator Data Management 进行全面数据治理、合规性、数据管理和其他数据管理任务的信息。 |
| 第八章 组件指南 | 提供 CDH 组件的最佳实践,这些组件包括:交互式 SQL 引擎(Apache Impala)、基于快速变化的数据计算(Apache Kudu)、智能 SQL 工作台(HUE)、操作型数据库(Apache HBase、Apache Spark)、快速 ETL/ELT 处理(Apache Hive on Spark)、优化搜索和发现(Apache Solr)、采集数据(Apache Flume)、作业调度(Apache Oozie)、高性能流消息平台(Apache Kafka)、文件格式和压缩。 |