AWS Lakeformation - Glue Job 简单上手

341 阅读1分钟

Glue ETL JOB是AWS 推出的无服务的数据发现,清洗,移动的工具,在上面可以很轻松的建立spark环境,实现大数据的清洗,分析和机器学习的工具,在AWS 数据湖的的建构图中,glue job 起着至关重要的角色,用它可以很轻松的在各种数据格式中处理数据

Glue Job 支持多种编辑器来创建job,对于只需要简单ETL工作的新手来说非常友好

  1. Visual with a source and target 提供一个带有默认步骤的页面,包括数据源,ETL,你可以删除node后再重新创建 image.png

2.Visual with a blank canvas 一个空白的操作画布,和上面带默认节点的一样窗口 image.png 3.Spark script editor提供一个可以写pyspark 的编辑器页面 image.png 4.Python Shell script editor 提供一个可以写python 的编辑器页面 image.png 5.Jupyter NotebookJupyter风格的编辑器页面 image.png

我用的比较多的是Visual with a source and target 和Spark script editor 两种job,当只需要简单的转换数据时候,可以通过简单的拖拽来完成任务, 如果是复杂的,使用pysaprk可以很简单很快的处理大量数据的清洗工作