这篇博文是由IBM和Cloudera的软件开发人员和架构师撰写的三部分系列中的第一篇。这篇博文的重点是最近宣布的联合产品的集成点。Cloudera Data Platform for IBM Cloud Pak for Data。第二篇文章将探讨Cloudera数据平台如何使用Ansible安装在IBM云上。第三篇文章将关注从安装、维护和验证这两个平台的连接性中获得的经验教训。让我们开始吧!
在这篇文章中,我们将概述Cloudera数据平台和IBM Cloud Pak for Data之间的主要集成点,并解释这两个不同的数据和人工智能平台如何能够相互沟通。通过IBM Cloud Pak for Data和Cloudera Data Platform开箱即用的功能,整合两个平台变得很容易。在两者之间建立连接只需点击几下就可以了。
我们认为,整合Cloudera数据平台和IBM Cloud Pak for Data有三个关键点;所有其他服务都是基于其中之一。
- Apache Knox Gateway(在Cloudera上可用
- Apache Hadoop的执行引擎(可在IBM Cloud Pak for Data上使用
- Db2 Big SQL(可在IBM Cloud Pak for Data上使用)
继续阅读,以了解关于每个集成点如何工作的更多信息。关于如何使用来自Hive和Db2的数据的演示,请看下面的视频,我们使用数据虚拟化连接数据,然后用IBM Cognos Analytics显示它,请看下面的视频。
Apache Knox网关
为了真正做到安全,Hadoop集群需要Kerberos。然而,Kerberos需要一个客户端库和复杂的客户端配置。这就是Apache Knox Gateway("Knox")出现的地方。通过封装Kerberos,Knox消除了对客户端软件或客户端配置的需求,从而简化了访问模型。Knox与身份管理和SSO系统(如活动目录和LDAP)集成,以允许这些系统的身份用于访问Cloudera集群。
图1.Knox仪表盘显示支持的服务列表
Cloudera服务,如Impala、Hive和HDFS可以用Knox配置,允许在IBM Cloud Pak for Data中轻松创建JDBC连接。
图2.通过Knox创建与Impala的JDBC连接
图3.IBM Cloud Pak for Data上的连接列表
用于Apache Hadoop的执行引擎
用于Apache Hadoop的执行引擎服务被安装在IBM Cloud Pak for Data和Cloudera Data Platform部署的工作节点上。Hadoop的执行引擎允许用户。
- 通过平台级连接浏览远程Hadoop数据(HDFS、Impala或Hive)。
- 通过数据精炼清理和塑造远程Hadoop数据(HDFS、Impala或Hive)。
- 在远程Hadoop系统上运行一个Jupyter笔记本会话
- 用RStudio和Jupyter笔记本的基本工具访问Hadoop系统
在IBM Cloud Pak for Data和Cloudera Data Platform上安装和配置服务后,你可以创建平台级连接到HDFS、Impala和Hive。
图4.Hadoop的执行引擎连接选项
一旦建立了连接,就可以浏览和导入HDFS、Impala或Hive的数据。
图5.通过Execution Engine for Hadoop建立的HDFS连接进行浏览
驻留在HDFS、Impala或Hive中的数据可以通过IBM Cloud Pak for Data上的Data Refinery进行清理和修改。
图6.Data Refinery允许在数据上运行操作
Hadoop执行引擎还允许Jupyter笔记本会话连接到远程Hadoop系统。
图7.Jupyter笔记本连接到远程HDFS
Db2 Big SQL
Db2 Big SQL服务被安装在IBM Cloud Pak for Data上,并被配置为与Cloudera数据平台部署进行通信。Db2 Big SQL允许用户。
- 查询存储在Hadoop服务上的数据,如HDFS和Hive
- 查询驻留在安全(Kerberized)或不安全的基于Hadoop的平台中的大量数据
一旦配置好Big SQL,你可以选择将哪些数据同步到表中。一旦进入表格,你可以将数据保存到项目中,对其运行查询,或浏览数据。Ranger是Cloudera的一项服务,可用于允许或拒绝访问,与Big SQL一起使用是必要的。
图8.在Big SQL中把数据从Hive同步到Db2表中
图9.预览来自Hive的同步数据
配置Db2 Big SQL与Cloudera集群交互的另一个好处是,创建了一个JDBC连接,可以被许多其他IBM Cloud Pak for Data服务所利用,例如数据虚拟化、Cognos分析和Watson知识目录。
图10.Big SQL实例的JDBC连接信息
图11.BigSQL的JDBC连接被Cognos Analytics所使用
图12.DataStage消耗的BigSQL JDBC连接
总结和下一步措施
我们希望你了解更多关于如何整合IBM Cloud Pak for Data和Cloudera Data Platform的信息。通过查看产品页面了解更多关于Cloudera Data Platform for IBM Cloud Pak for Data的信息,或者访问IBM混合数据管理社区来发布问题并与我们的专家交流。
最后,如果您喜欢这篇文章,请查看下面的视频,Omkar Nimbalkar和Nadeem Asghar讨论了IBM和Cloudera的伙伴关系。