Databricks连接到Oracle数据库:2种简单方法

469 阅读13分钟

Databricks连接到Oracle数据库:2种简单方法

Amit Phaujdar关于数据集成数据库管理系统DatabricksOracle- 2022年6月15日 -Write for Hevo

甲骨文公司自成立以来已经成为IT市场上最大的RDBMS(关系型数据库管理系统)供应商之一。可用于访问Oracle关系型数据库中的数据的查询语言是SQL。Databricks是一家企业软件公司,由Apache Spark的创建者创立。它以将数据湖和数据仓库的优点结合到湖库架构中而闻名。

这篇文章讲述了你可以遵循的方法来建立Databricks与Oracle的无缝集成。在深入研究Databricks连接到Oracle数据库的方法之前,它还简要介绍了Oracle和Databricks。

目录

什么是Oracle?

Databricks Connect to Oracle Database: Oracle Logo

图片来源

甲骨文公司提供了一个多模式的数据库管理系统,通常用于数据仓库、在线交易处理和混合数据库工作负载。甲骨文数据库在各种主要平台上运行,如Linux、UNIX、Windows和MacOS。甲骨文数据库是第一个为企业网格计算设计的数据库,它是管理信息和应用程序的最经济、最灵活的方式。

企业网格计算开发大型的行业标准服务器池和模块化存储。这种类型的架构允许从组件池中迅速配置一个新的系统。由于容量可以根据需要很容易地从资源池中转移或增加,所以不需要峰值工作负载。它通过配置和虚拟化与其他类型的计算不同。

网格计算旨在通过生产更有弹性、成本更低的操作系统来解决企业IT所面临的一些常见问题。这种架构风格使甲骨文公司能够以更低的成本提供全面的数据库,具有更大的灵活性和更高的服务质量。甲骨文公司提供在网计算功能,专注于为其用户提供集中管理、强大的安全基础设施、通用访问和强大的开发工具。

甲骨文的主要特点

以下是甲骨文大受欢迎的一些关键特征。

  • 跨平台整合。甲骨文支持所有的操作系统(OS),包括Windows、macOS、Linux和其他。
  • 符合ACID属性。Oracle DB提供ACID(原子性、一致性、隔离性和持久性)属性,以确保数据库在交易处理过程中的完整性。
  • 简单的通信。不同平台上的应用程序之间的通信很简单。Oracle的本地网络堆栈允许您将数据库与各种平台上的应用程序无缝对接。例如,你可以简单地将基于Unix的应用程序与你的Oracle数据库(在Windows上运行)进行链接和互动。
  • 备份和恢复。甲骨文的备份和恢复能力使其能够从任何事故或技术故障中检索到数据。甲骨文的RAC架构确保所有的数据和进程都得到了备份。
  • 分析解决方案。您可以使用Oracle高级分析和OLAP(Oracle分析处理)来快速对业务数据进行分析计算。

什么是Databricks?

Databricks Connect to Oracle Database: Databricks Logo

图片来源

Databricks是一个基于云的数据平台,由Apache Spark驱动。它主要专注于大数据分析和协作。通过Databricks的机器学习运行时间、管理的ML流程和协作笔记本,你可以为商业分析师、数据科学家和数据工程师提供一个完整的数据科学工作空间来进行协作。Databricks拥有Dataframes和Spark SQL库,允许你与结构化数据互动。

有了Databricks,你可以轻松地从现有的数据中获得洞察力,同时还可以协助你开发人工智能解决方案。Databricks还包括用于训练和创建机器学习模型的机器学习库,如TensorflowPytorch等。各种企业客户使用Databricks在大量的用例和行业中进行大规模的生产操作,包括医疗保健、媒体和娱乐、金融服务、零售等等。

Databricks的主要特点

Databricks因其转换和处理大量数据的能力而成为数据分析师和数据科学家的行业领先解决方案。以下是Databricks的几个主要特点。

  • 三角湖。Databricks拥有一个开源的事务性存储层,旨在用于整个数据生命周期。你可以使用这个层来为你现有的数据湖带来数据的可扩展性和可靠性。
  • 优化的Spark引擎。Databricks允许你利用Apache Spark的最新版本。你还可以毫不费力地将各种开源库与Databricks集成。凭借多个云服务提供商的可用性和可扩展性,你可以轻松地设置集群,并建立一个完全管理的Apache Spark环境。Databricks允许你配置、设置和微调集群,而不需要监控它们,以确保性能和可靠性达到峰值。
  • 机器学习。在Tensorflow、Scikit-Learn和Pytorch等尖端框架的帮助下,Databricks为您提供一键式访问预配置机器学习环境的机会。从一个中央存储库,你可以分享和跟踪实验,协同管理模型,并复制运行。
  • 协作式笔记本。使用您选择的工具和语言,您可以立即分析和访问您的数据,共同建立模型,发现和分享新的可操作的见解。Databricks允许你用你选择的任何语言进行编码,包括Scala、R、SQL和Python。

为什么Databricks连接到Oracle数据库很重要?

以下是你应该考虑将数据从Oracle转移到Databricks的几个原因。

  • Databricks将虚拟化存储,因此,允许在任何地方访问数据。
  • 选择Databricks进行这种迁移是一个比较谨慎的选择,因为它利用了数据科学来支持决策。
  • Databricks在 "开箱即用 "和 "基础设施太重 "之间走了一条细线。相比之下,你不可能在与存储相同的平台上编码复杂的Spark ETL Spark管道。Databricks允许你轻松地设置你的Spark基础设施,处理大量的移动部件,以连接所有的点,为你的Oracle数据扩展计算和存储。

将Oracle连接到Databricks的方法

方法1:使用Hevo Data进行Databricks连接到Oracle数据库

Hevo Data,一个自动化的无代码数据管道,提供了一个无忧无虑的解决方案,帮助你在几分钟内直接将数据从Oracle转移到Databricks。Hevo是完全管理的,完全自动化的过程,不仅从你所需要的来源加载数据,而且还丰富了数据,并将其转化为可分析的形式,而无需编写一行代码。

免费开始使用HEV

Hevo与Oracle和 100多个数据库、文件、分析引擎等 数据源的预建集成,使用户可以灵活地以尽可能顺利的方式引入各种不同的数据,而无需编写一行代码。Hevo完全负责你的数据传输过程,让你把工程带宽集中在关键业务活动上。

方法2:Databricks连接到Oracle数据库的手动步骤

在这个Databricks连接到Oracle数据库的方法中,你将首先以CSV格式导出你的Oracle数据。接下来,你将把这些CSV数据迁移到你的Databricks存储库中。这在纸面上看起来很简单,但它也有一些限制。

了解Databricks连接到Oracle数据库的方法

以下是你可以利用的方法,建立Databricks Connect到Oracle数据库的无缝连接。

方法1:使用Hevo数据进行Databricks连接到Oracle数据库

Databricks Connect to Oracle Database: Hevo Logo

图片来源

Hevo数据,一个无代码的数据管道,可以帮助你直接从Oracle其他100多个数据源(包括40多个免费数据源)传输数据到Databricks或数据库工具,数据仓库,或以完全无忧无虑和自动化的方式选择一个目的地。Hevo允许你从Oracle和Amazon RDS Oracle移动数据到所需的数据目的地。通过Hevo,你可以选择重做日志、自定义SQL或表, 并决定最适合你的Oracle数据传输的方法。

Hevo是完全管理和完全自动化的过程,不仅从你想要的来源加载数据,而且还丰富了数据,并将其转化为可分析的形式,而不需要写一行代码。它提供了一个一致和可靠的解决方案来实时管理数据,并始终在你所期望的目的地拥有可分析的数据。

以下步骤可以实现使用Hevo将Oracle连接到Databricks。

  • 配置源。通 过为你的目的地提供一个独特的名称以及你的数据库凭证,如用户名和密码,将Hevo数据与Oracle连接起来。Hevo支持 Generic OracleAmazon RDS Oracle。为了帮助Hevo与你的Oracle数据库连接,你还必须提供诸如主机IP,端口号,以及你的数据库的名称和模式等信息。

Databricks Connect to Oracle Database: Configure Source

图片来源。自我

  • 配置目的地。要连接到你的Databricks仓库,你可以创建一个Databricks SQL终端或一个Databricks集群。接下来,你需要获得Databricks的证书,并记下以下数值。
    • 端口
    • HTTP路径
    • 服务器主机名

要将Databricks配置为Hevo中的一个目标,请执行以下步骤。

  • 资产调色板中点击DESTINATIONS
  • 目的地列表视图中点击**+CREATE**。
  • 接下来,在添加目的地页面,选择Databricks。
  • 配置你的Databricks目的地页面,提到以下内容。

Databricks Connect to Oracle Database: Configure Destination

图像源

  • 数据库端口:这是你的集群凭证中的端口。数据库端口的默认值是443。
  • 目的地名称。这描绘了你的目的地的唯一名称。
  • 服务器主机名:这是指你的集群凭证中的服务器主机名。
  • 个人访问令牌(PAT)。它指的是在Databricks中生成的PAT,Hevo需要用它来验证和连接到Databricks。这将类似于用户名-密码组合的工作。
  • HTTP路径
  • 最后,点击TEST CONNECTION进行测试,然后点击SAVE AND CONTINUE来完成设置。

以下是尝试Hevo的更多理由。

  • 顺利的模式管理。Hevo消除了繁琐的模式管理任务,自动检测传入数据的模式,并将其映射到所需数据仓库的模式中。
  • 卓越的数据转换。一流的本地支持,让复杂的数据转换触手可及。代码和无代码的灵活性是为所有人设计的。
  • 快速设置。Hevo具有自动化功能,可以在最短的时间内完成设置。此外,凭借其简单和互动的用户界面,它对新客户的工作和执行操作是非常容易的。
  • 可扩展性。随着数据源的数量和你的数据量的增长,Hevo可以横向扩展,每分钟处理数百万条记录,而且延迟非常小。
  • 实时支持。Hevo团队通过聊天,电子邮件和支持电话24小时为客户提供特殊支持。

今天就试试Hevo吧!

在此注册以获得14天的免费试用

方法2:Databricks连接到Oracle数据库的手动步骤

以下是Databricks手动连接到Oracle数据库的两个步骤。

第1步:Oracle到CSV的导出

对于这一步,你将利用Oracle SQL Developer。

  • 首先,连接到你想要导出的数据库和表。
  • 接下来,你可以通过右键点击表来打开上下文菜单。选择 "导出"来启动集成的 "导出向导"。
  • 为了保证正确的导出,你需要取消选择导出DDL选项。然后你可以将格式改为CSV,并为导出的文件设置路径。点击 "下一步 "进入下一个步骤。
  • 下面的屏幕让你指定你想导出的列。(SELECT *...默认情况下)。
  • 你可以借助编辑按钮来改变设置,也可以通过点击下一步继续进行。
  • 接下来,你会得到一个导出过程的总结。你需要检查你的设置是否有效,并通过点击完成来完成导出。

第2步:移动CSV数据到Databricks

  • 有两种方法可以将CSV数据移动到Databricks:通过使用用户界面或将数据上传到一个表中。要使用用户界面导入CSV文件,你首先需要点击工作区用户界面左下角的设置图标,选择Admin Console 选项**。** 接下来,点击工作区设置选项卡,滚动到高级部分。你需要打开使用用户界面上传数据的开关,并点击确认,以继续进行Databricks读取CSV。

  • 现在你已经上传了数据到表中,你可以执行以下步骤来修改和读取数据,将CSV数据迁移到Databricks。

    • 选择一个集群来预览表格,然后点击预览表格按钮,将CSV数据迁移到Databricks。
  • 如果你仔细观察上面提到的图片,你可以看到表的属性默认为String类型。你可以从下拉菜单中为属性选择合适的数据类型。

  • 现在你已经配置了所有的设置,你可以点击创建表按钮。要读取数据,你只需要导航到数据部分,并选择你上传文件的集群。这样,你就成功地将CSV数据转移到了Databricks中,也结束了Databricks连接到Oracle数据库的过程。

总结

这篇博客谈到了你可以采用不同的方法来无缝设置Databricks Connect到Oracle数据库。它还涵盖了Databricks和Oracle的突出特点,以及将Oracle连接到Databricks对你的数据管道的重要性。

访问我们的网站,探索Hevo

从不同的数据源中提取复杂的数据是很有挑战性的,而这正是Hevo的优势所在。 Hevo提供了一种更快的方式将数据从 100多个数据源(如Oracle或SaaS应用程序)转移到你的数据仓库(如Databricks),以便在你选择的BI工具中进行可视化。Hevo是完全自动化的,因此不需要你编码。

想体验一下Hevo吗?注册一个14天的免费试用,亲身体验功能丰富的Hevo套件。你也可以看看无可匹敌的 价格,这将有助于你选择适合你的业务需求的计划。

Databricks的无代码数据管线

免费试用