阿里云DataWorks的学习

573 阅读4分钟

阿里云DataWorks的学习

最近实习入职了,做的项目类似于阿里巴巴的DataWorks,由于之前对大数据的知之甚少,决定学习一下同类产品DataWorks的功能和使用,帮助加深我对实习项目业务的理解。

简介

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴大数据建设方法论,支撑数据中台建设,同时与数万名政务、央国企、金融、零售、互联网、能源、制造、工业等行业的客户携手,不断提升数据应用效率,助力产业数字化升级。

功能特性

数据集成

DataWorks的数据集成功能模块是稳定高效、单行伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。

DataWorks数据集成支持离线同步、实时同步,以及离线和实时一体化的全增量同步。其中:

  • 离线同步场景下,支持设置离线同步任务的调度周期。
  • 支持数据库、数仓、NoSQL数据库、文件存储、消息队列等近50多种不同异构数据源之间的数据同步。
  • 支持在各类复杂网络环境下,连通数据源的网络解决方案,无论数据源在公网、IDC还是VPC内,均可使用DataWorks数据集成实现网络连通。
  • 支持安全控制与运维监控,保障数据同步的安全、可控。

数据开发

DataWorks的全流程数据质量监控功能为您提供35种预设表级别、字段级别和自定义的监控模板。

数据质量帮助您第一时间感知到源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,自动拦截问题任务,有效阻断脏数据向下游蔓延。

DataWorks的数据开发(DataStudio)是数据加工的开发平台,运维中心是智能运维平台,基于这两个功能模块,您可以在DataWorks上规范、高效地构建和运维数据开发工作流。

  • DataStudio支持MaxCompute、EMR、CDH、Hologres、AnalyticDB、Clickhouse等多种计算引擎,支持在统一的平台上进行各类引擎任务的开发、测试、发布和运维等操作。
  • DataStudio支持智能编辑器、可视化依赖编排,调度能力经过阿里集团内千万级调度任务、复杂业务依赖的反复验证。
  • DataStudio提供隔离的开发和生产环境,结合版本管理、代码评审、冒烟测试、发布管控、操作审计等配套功能,帮助企业规范地完成数据开发。
  • 运维中心支持数据时效性保障、任务诊断、影响分析、自动运维、移动运维等功能。
  • 高效、规范的开发流程:在开发环境,数据开发人员进行开发,提交,冒烟测试,然后由运维/部署/主管进行检查、审批、发布到生产环境。
  • 可视化的开发界面:支持通过托拉拽的方式构建任务流程,在统一的界面进行数据开发和调度配置
  • 任务监控与定位处理:在节点发布之后,生产任务运行,有手动任务、周期任务、测试任务、补数据任务、实时同步任务、实时计算任务,有些任务自动调度,有些是手动触发,运维中心可以智能诊断任务执行失败的原因(必要条件:父节点执行成功、到任务定时时间、调度资源充足、本任务未冻结),智能监控任务运行状态,监控运行资源,生成运维大屏查看运维关键指标。

数据质量

数据质量以数据集(DataSet)为监控对象,支持监控MaxCompute数据表和DataHub实时数据流。当离线MaxCompute数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量提供历史校验结果的管理,以便您对数据质量进行分析和定级。

数据质量为您解决以下问题:

  • 数据库频繁变更问题
  • 业务频繁变化问题
  • 数据定义问题
  • 业务系统的脏数据问题
  • 系统交互导致质量问题
  • 数据订正引发的问题
  • 数据仓库自身导致的质量问题