🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。
✨杭州奥零数据科技官网:www.aolingdata.com
✨Github项目:github.com/alldatacent…
✨Gitee项目:gitee.com/alldatacent…
✨AllData官方手册:www.yuque.com/aolingdata/…
✨AllData正式环境:http://43.138.156.44:5173/ui_moat
摘要:
本文档介绍如何在Linux服务器上部署Airflow服务,与openmetadata进行集成,后在openmetadata系统中实现对Airflow工作流数据的拾取以及数据库元数据的拾取。
• openmetadata:1.6.0
• airflow:2.9.1
元数据管理平台基于开源项目OpenMetaData建设
元数据管理平台OpenMetaData通过全面的元数据采集、强大的存储与检索、深度的分析与治理、灵活的应用与共享、高扩展性与定制化以及直观的用户体验,为企业提供了一站式的元数据管理解决方案。
-
OpenMetaData开源项目:github.com/open-metada…
-
更多教程可以参考官方教程文档:docs.open-metadata.org/latest
1、环境安装
- Miniconda:安装不同版本的python 虚拟环境的工具
- JDK:17
1.1 Minicoonda
1.1.1 安装
- 下载地址:repo.anaconda.com/miniconda/M…
- 服务器上创建 Miniconda 安装包存放目录并切换到该目录
- 在本地主机下载好安装包后上传至服务器,可通过以下命令上传
- 在服务器 /opt/software 目录下执行以下命令开始安装,按照提示操作,直到安装完成
- 在安装过程中,出现以下提示时,可以自行指定安装路径,也可以使用默认路径
- 出现以下字样,即为安装完成
- 加载环境配置文件,使刚刚安装 Miniconda 配置生效
- Miniconda 安装完成后,每次打开终端都会激活其默认的 base 环境,我们可通过以下命令,禁止激活默认 base 环境
- 配置 conda 国内镜像
1.1.2 查看环境
1.1.3 创建虚拟环境
1.1.4 删除虚拟环境
1.1.5 激活虚拟环境
1.1.6 退出虚拟环境
1.2 JDK
-
找到以下软件包进行下载即可
- 下载完成后,上传到我们服务器并解压即可
2、安装AirfIow
2.1 设置环境变量
-
AIRFLOW_HOME:Airflow 配置文件、日志等信息存放目录
-
AIRFLOW__OPENMETADATA_AIRFLOW_APIS__DAG_GENERATED_CONFIGS:openmetadata提取任务配置文件生成目录
2.2 创建虚拟环境
- 执行以下命令,按照提示操作
- 激活虚拟环境
2.3 安装
执行以下命令开始安装
安装完成后,可执行以下命令,查看安装的版本
查看airflow相关配置信息
2.4 修改配置
2.4.1 airflow webserver端口
- 用户可以修改为其他端口,也可以使用默认配置
2.4.2 executor
- 执行器,官方建议设置为 LocalExecutor
2.4.3 数据库
- 默认使用本机的sqlite存储,官方建议修改为 mysql 数据库
2.4.4 auth_backends
- 要让openmetadata支持airflow元数据拾取需要修改该配置为
2.5 初始化数据库
- 执行以下命令进行数据库初始化
- 修改系统登录密码,这里我们修改密码为 alldata2.6 安装插件安装此插件,即可支持openmetadata集成airflow元数据拾取
2.6 安装插件
- 安装此插件,即可支持openmetadata集成airflow元数据拾取
2.7 启动airflow
- 启动完成后,执行以下命令验证插件是否安装成功
- 32g004是我们的服务器域名
- 8100是我们的airflow webserver端口地址
- 出现如下信息表示安装成功
3、airflow元数据拾取
3.1 进入openmetadata页面
3.2 点击服务
点击后,进入以下页面
3.3 点击工作流
点击后,进入以下页面
3.4 点击添加新服务
- 点击后,进入以下页面
- 选择 Airflow
3.5 点击下一步
- 点击后,进入以下页面
- 编辑服务名(必填)
- 以及描述(可选)
3.6 点击下一步
- 点击后,进入以下页面
- Host And Port:Airflow的服务地址,输入以下内容
- Metadata Database Connection 修改为 BackendConnection,如下图
- 点击测试连接,成功后如下图
- 点击 Save,服务创建成功
3.7 点击添加拾取
- 点击后,进入以下页面
- 以下配置默认即可
3.8 点击下一步
- 点击后,进入以下页面
- 这里我们选第一个选项无,拾取任务我们手动点击运行
3.9 点击添加部署
- 点击后,进入以下页面
3.10 点击查看服务
- 点击后,进入以下页面
- 此时,已完成一次工作流拾取任务,可以看到工作流信息
3.11 点击提取
- 点击后,进入以下页面
- 可以看到我们的拾取任务的状态以及执行日志
3.12 登录Airflow
4、mysql元数据拾取
4.1 进入openmetadata页面
4.2 点击服务
点击后,进入以下页面
4.3 点击数据库
- 点击后,进入以下页面
4.4 点击添加新服务
- 点击后,进入以下页面
- 选择 mysq
4.5 点击下一步
- 点击后,进入以下页面
- 编辑服务名(必填)
- 以及描述(可选)
4.6 点击下一步
- 点击后,进入以下页面
- 编辑数据库连接信息
- 点击 "测试连接"
- 点击 "Save"
4.7 点击添加提取
- 点击后,进入以下页面
- 页面可下滑设置参数,默认即可
4.8 点击下一步
-
点击后,进入以下页面
-
这里我们选第一个选项"无",拾取任务我们手动点击运行
4.9 点击添加部署
- 点击后,进入以下页面