元数据管理平台(OpenMetaData)--元数据拾取能力演示

61 阅读5分钟

🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。

✨杭州奥零数据科技官网:www.aolingdata.com

✨Github项目:github.com/alldatacent…

✨Gitee项目:gitee.com/alldatacent…

✨AllData官方手册:www.yuque.com/aolingdata/…

✨AllData正式环境:http://43.138.156.44:5173/ui_moat

摘要:

本文档介绍如何在Linux服务器上部署Airflow服务,与openmetadata进行集成,后在openmetadata系统中实现对Airflow工作流数据的拾取以及数据库元数据的拾取。

• openmetadata:1.6.0

• airflow:2.9.1

封面.png

元数据管理平台基于开源项目OpenMetaData建设

元数据管理平台OpenMetaData通过全面的元数据采集、强大的存储与检索、深度的分析与治理、灵活的应用与共享、高扩展性与定制化以及直观的用户体验,为企业提供了一站式的元数据管理解决方案。

1、环境安装

  • Miniconda:安装不同版本的python 虚拟环境的工具
  • JDK:17

1.1 Minicoonda

1.1.1 安装

carbon-1.png

  • 在本地主机下载好安装包后上传至服务器,可通过以下命令上传

carbon-2.png

  • 在服务器 /opt/software 目录下执行以下命令开始安装,按照提示操作,直到安装完成

carbon-3.png

  • 在安装过程中,出现以下提示时,可以自行指定安装路径,也可以使用默认路径

1.png

  • 出现以下字样,即为安装完成

2.png

  • 加载环境配置文件,使刚刚安装 Miniconda 配置生效

carbon-4.png

  • Miniconda 安装完成后,每次打开终端都会激活其默认的 base 环境,我们可通过以下命令,禁止激活默认 base 环境

carbon-5.png

  • 配置 conda 国内镜像

carbon-6.png

1.1.2 查看环境

carbon-7.png

1.1.3 创建虚拟环境

carbon-8.png

1.1.4 删除虚拟环境

carbon-9.png

1.1.5 激活虚拟环境

carbon-11.png

1.1.6 退出虚拟环境

carbon-11.png

1.2 JDK

软件安装包.png

  • 下载完成后,上传到我们服务器并解压即可

2、安装AirfIow

2.1 设置环境变量

carbon-12.png

  • AIRFLOW_HOME:Airflow 配置文件、日志等信息存放目录

  • AIRFLOW__OPENMETADATA_AIRFLOW_APIS__DAG_GENERATED_CONFIGS:openmetadata提取任务配置文件生成目录

2.2 创建虚拟环境

  • 执行以下命令,按照提示操作

carbon-13.png

  • 激活虚拟环境

carbon-14.png

2.3 安装

执行以下命令开始安装

carbon-15.png

安装完成后,可执行以下命令,查看安装的版本

carbon-16.png

查看airflow相关配置信息

carbon-17.png

2.4 修改配置

carbon-18.png

2.4.1 airflow webserver端口

3.png

  • 用户可以修改为其他端口,也可以使用默认配置

2.4.2 executor

4.png

  • 执行器,官方建议设置为 LocalExecutor

5.png

2.4.3 数据库

6.png

  • 默认使用本机的sqlite存储,官方建议修改为 mysql 数据库

7.png carbon-19.png

2.4.4 auth_backends 8.png

  • 要让openmetadata支持airflow元数据拾取需要修改该配置为

carbon-20.png

2.5 初始化数据库

  • 执行以下命令进行数据库初始化

carbon-21.png

  • 修改系统登录密码,这里我们修改密码为 alldata2.6 安装插件安装此插件,即可支持openmetadata集成airflow元数据拾取

carbon-22.png

2.6 安装插件

  • 安装此插件,即可支持openmetadata集成airflow元数据拾取

carbon-23.png

2.7 启动airflow

carbon-24.png

  • 启动完成后,执行以下命令验证插件是否安装成功

carbon-25.png

  • 32g004是我们的服务器域名
  • 8100是我们的airflow webserver端口地址
  • 出现如下信息表示安装成功

carbon-26.png

3、airflow元数据拾取

3.1 进入openmetadata页面

页面3.1.png

3.2 点击服务

点击后,进入以下页面

页面3.2.png

3.3 点击工作流

点击后,进入以下页面

页面3.3.png

3.4 点击添加新服务

  • 点击后,进入以下页面
  • 选择 Airflow

页面3.4.png

3.5 点击下一步

  • 点击后,进入以下页面
  • 编辑服务名(必填)
  • 以及描述(可选)

页面3.5.png

3.6 点击下一步

  • 点击后,进入以下页面

页面3.6.1png.png

  • Host And Port:Airflow的服务地址,输入以下内容

carbon-27.png

  • Metadata Database Connection 修改为 BackendConnection,如下图

页面3.6.2.png

  • 点击测试连接,成功后如下图

页面3.6.3.png

  • 点击 Save,服务创建成功

页面3.6.4.png

3.7 点击添加拾取

  • 点击后,进入以下页面
  • 以下配置默认即可

页面3.7.1.png

页面3.7.2.png

3.8 点击下一步

  • 点击后,进入以下页面
  • 这里我们选第一个选项无,拾取任务我们手动点击运行

页面3.8.png

3.9 点击添加部署

  • 点击后,进入以下页面

页面3.9.png

3.10 点击查看服务

  • 点击后,进入以下页面
  • 此时,已完成一次工作流拾取任务,可以看到工作流信息

页面3.10.png

3.11 点击提取

  • 点击后,进入以下页面
  • 可以看到我们的拾取任务的状态以及执行日志

页面3.11.png

3.12 登录Airflow

页面3.12.png

4、mysql元数据拾取

4.1 进入openmetadata页面

页面4.1.png

4.2 点击服务

点击后,进入以下页面

页面4.2.png

4.3 点击数据库

  • 点击后,进入以下页面

页面4.2.png

4.4 点击添加新服务

  • 点击后,进入以下页面
  • 选择 mysq

页面4.4.png

4.5 点击下一步

  • 点击后,进入以下页面
  • 编辑服务名(必填)
  • 以及描述(可选)

页面4.5.png

4.6 点击下一步

  • 点击后,进入以下页面
  • 编辑数据库连接信息

页面4.6.1.png

  • 点击 "测试连接"

页面4.6.2.png

  • 点击 "Save"

页面4.6.3.png

4.7 点击添加提取

  • 点击后,进入以下页面

页面4.7.png

  • 页面可下滑设置参数,默认即可

4.8 点击下一步

  • 点击后,进入以下页面

  • 这里我们选第一个选项"无",拾取任务我们手动点击运行

页面4.8.png

4.9 点击添加部署

  • 点击后,进入以下页面

页面4.9.png