在2018
年云栖大会·深圳峰会的专有云专场中,来自阿里云的大数据专家张辉(士诚)为现场的听众带来了题为《
DataWorks
全新升级以及在城市大脑的广泛应用》的技术分享。在本次分享中,士诚重点阐述
DataWorks
概述、
DataWorks
核心能力升级和
DataWorks
在城市大脑中的应用三个方面。
数十款阿里云产品限时折扣中, 赶快点击这里,领券开始云上实践吧!
以下内容根据现场分享整理而成。
DataWorks阐述
DataWorks (数据工场)是阿里云推出的大数据领域 PaaS 平台,是一站式的 DW 能力平台,提供数据集成、数据开发、数据管理、数据治理等全方位的产品服务,致力于帮助企业快速搭建大数据平台和 IT 数据中心,无需关注具体搭建过程中工具使用细节。
DataWorks大事记
DataWorks 从诞生到现在经历了以下发展历程:
· 从2009 年起,集团内部修炼 8 年内功:阿里集团内部率先使用 DataWorks ,目前阿里集团、蚂蚁金服、菜鸟等全集团以及各 BU 都在使用 DataWorks 进行内部数据开发和分析工作;也是集团小二居家旅行大促冲刺必备工具。
· 从2014 年起,在公有云上修炼 4 年外功:开始在公有云上发布 DataWorks , 2014 年起支持御膳房, 2015 年 BASE 平台发布,目前在公共云上,支持包括新浪微博、人人车、天弘基金等重要客户。
· 从2015 年起,在专有云上 3 年专攻:在 2015 年 DataWork 第一次完成专有云输出,这也是阿里云大数据首次输出;次年 1 月份,数据平台正式上线; · 从2017 年起,正式走向世界,实现全球部署:在 2017 年 4 月份完成新加坡首发,截止目前, DataWorks 在全球的 12 个地区为大数据用户提供服务; · 2017 年 10 月,扎根政企: DataWorks 对外首次亮相八大模块。一路走来,DataWorks 得了阿里集团内部和外界的一致认可,在 2017 年 7 月,数加平台获得国际软博会金奖。在 2018 年 1 月,首批入围阿里集团提效 x10 产品;同年 3 月,在 Forrester 公布的 CDW 排名中,高居全球第二。
DataWorks产品八大件
上图是17 年公布的 DataWorks 八大件的产品架构图, DataWorks 底层基于多种计算引擎,主要包括 MaxCompute 、 ADS 、图计算等;上层提供了从数据汇聚到数据研发,再到数据治理,最终到开放共享的全方位大数据服务平台,共孵化出了八个产品模块(又称八大件),包括数据集成、数据开发、监控运维、实时分析、数据资产管理、数据质量、数据安全和数据服务。目前在专有云中,八大产品模块均有能力对外输出,并且基于阿里自身的平台管理的公共租户账号和 Feed 实现插件化输出,用户可以单独去购买八大件中的任一模块进行组合使用。
核心能力升级
下面介绍一下最近一段时间DataWorks 核心能力升级的部分。
数据开发
首先来看一下数据开发功能。在DataWorks 中,用户使用频率最高是写代码、做开发, DataWorks 致力于做最好的 WEB 代码的 IDE 编辑器,因此针对数据开发功能,我们做了大量的升级和改进工作。目前, DataWorks 编辑器已经是业内 WEB 端编辑器中的领头羊,基本能做到和本地 IDE 一致体验。这里摘取了数据开发方面升级的九个较为重要的功能:
1、MaxCompute SQL 预编译、 2.0 语法全面支持,预编译功能使得用户在开发代码过程中可以快速发现错误,而无需将任务提供到最底层的计算引擎后才能发现错误。例如,用户不确定是否具有某个表的权限,在编写代码的过程中通过预编译就能识别出,无需提交到计算引擎后才发现这一错误;
2、 编辑器语法错误提醒,显示错误信息;
3、MiniMap 缩略图;
4、 代码自动补全;
5、 表meta 自动补全;
6、 代码格式化,代码折叠;
7、 编辑器代码搜索;
8、 丰富的快捷键支持;
9、 长SQL 杀器, SQL 结构化展示。用户可以使用该功能对较长的 SQL 语句进行折叠和隐藏,同时可以使用 DataWorks 提供的结构化功能快速理解对应 SQL 代码所实现的具体功能。
如上图所示,对于特别长的SQL 语句, DataWorks 提供了代码的格式化和折叠。对于代码的具体功能,可以使用 DataWorks 提供的结构化功能
数据集成
DataWorks 已经支持了 dataX , 400 类异构数据源之间的数据同步。去年,又重点优化了跨网传输,重点解决了三个应用场景:
第一个场景是用户自建IDC 机房和数据中心数据同步,业内最常用的解决方案是拉专线或者是用硬盘拷贝同步等物理手段,而 DataWorks 数据集成提供了软件解决方案,直接通过互联网就可以实现两地的数据同步,在数据传输过程中实现了数据加密和压缩,提了高传输效率的同时保障数据的安全性,美柚等公司均是利用这种方式进行数据传输,日传输数据高达数百 T 比特; 第二个场景是国际间的数据同步,目前,DataWorks 数据集成支持了海外 12 个节点之间的数据同步。国际之间网络状况一般较差,在数据集成功能中,特意开发一个内部专属协议,经过测试,整体数据同步速度提高 5 倍; 第三个场景是专有云内部,专有云内部经常存在网闸,导致网络之间不互通,对于网闸,DataWorks 提供了数据集成的解决方案,实现网闸间数据相互传输。去年我们做的第二个工作是完善了StreamX 的整体升级。 StreamX 相对于 dataX 的区别在于它提供了实时的数据集成能力,在提供实时数据集成能力的基础上, DataWorks 又在源和目标之间提供了丰富的数据转换功能,如身份证转换、字段增加删除转换等。
上图是DataWorks 数据集成产品使用界面,整体操作界面更新成完全拖曳式操作,图示案例表示从 Datahub 数据源,最终将表输出到一张数据表中,在中间过程进行了加字段和 JS 字段变换操作,这种方式极大地降低了用户开发工作。
数据服务
DataWorks 数据服务是去年开发的全新模块,该模块的功能是帮助用户实现数据 API 快速生成和注册服务。
在实际工作中,数据API 开发经常遇到。传统模式下,开发一个数据接口大约需要 7 步: 1 、准备数据库; 2 、开发数据库连接代码; 3 、开发 API 逻辑代码; 4 、开发 API 鉴权和流控逻辑; 5 、搭建 HTTP 服务器; 6 、部署 API 接口服务; 7 、服务运维,扩容缩容。
通过DataWorks 提供的数据服务,开发一个数据接口可以缩减到 2 步: 1 、准备好数据库; 2 、在数据服务中配置 / 开发 API 逻辑代码。
目前,DataWorks 数据服务提供了两种数据接口开发模式:向导模式和脚本模式。
· 向导模式:支持通过可视化配置,快速根据数据表生成API ,它主要面向小白用户,易上手,非技术人员也可快速入门;但功能有限,只提供单表原生字段简单查询; · 脚本模式:支持通过SQL 脚本,自定义数据 API 的查询逻辑,它主要面向高阶用户,提供自定义查询 SQL 功能,需要开发者才能使用;脚本模式功能强大,支持复杂条件查询、支持多表关联、支持聚合函数。数据资源管理
数据资源管理方面同样进行重点升级,目前覆盖政企全部数据资产类型,支持所有的结构化数据源(包括MySQL 、 SQLserver 、 ORACLE 、 MaxCompute 、 RDS 等)、非结构化数据(包括 Habase 、 FTP 以及阿里云 OSS 等)、 API 数据、模型数据以及标签数据。所有的数据资产进行一站式的统一管理,帮助政企类客户完整整体数据资产的梳理和维护,最后以数据资产大屏方式输出,供政府使用。再结合 DataWorks 自身的开发和集成能力,目前在数据资产内完成了数据血缘分析以及数据成本的整体控制等增强型操作。
数据安全
在大数据中,数据安全是必须面对的问题。DataWorks 除了自身多租户、数据授权以及字段授权管理等安全手段之外,在 2017 年和蚂蚁金服的数据安全团队合作推出了 DataWorks 数据保护伞模块,致力为企业提供安全、合规、智能的数据安全管家,重点解决了以下三个方面的问题:
· 企业和政府的监管合规要求:对于企业,主要面临个人隐私数据保护、数据出境、数据交换等挑战,数据保护伞针对这些挑战分别了提供了隐私数据识别及脱敏、数据导出监控、数据发布脱敏机同态加密等安全解决方案,满足数据资产保护的合规性;
· 数据管理层面的安全诉求:数据管理层面主要面临包括数据如何分类分级、数据管理策略难落地、无法掌握敏感数据分布等挑战,数据保护伞针对性地提供了数据智能分类分级、一键式数据安全策略优化、敏感数据分布热力图等解决方案; · 数据风险及其泄露控制:对于明文敏感数据展示、数据泄露以及敏感数据违规操作难以发现等挑战,数据保护伞提供了脱敏SDK\IDE 脱敏集成,用户可以自定义数据脱敏类型、数据导出监控与风险识别、智能数据操作风险识别等解决方案,通过智能数据风险识别,提升数据安全运行效率。
城市大脑
下面来看一下DataWorks 在城市大脑的地位以及相关事件。
城市大脑需要一套高保障的供血系统,DataWorks 在城市大脑中被称为数据资源平台,是城市大脑三大核心支柱平台之一,帮助城市大脑完成整体的数据汇聚、分析工作。
数据资源平台在城市大脑中主要包括以下几个功能:
- · 全域数据汇聚,汇聚城市中所有的基础数据以及数据集成;
- · 数据融合加工,完成整体数仓模型规范以及ETL 开发规范;
- · 数据治理体系,提供数据质量、安全、稳定性保障以及数据资产管理;
- · 数据开放共享,完成对上层城市大脑数据应用的支撑。
在城市大脑中,我们提出了1478 的概念,是指 1 个平台、 4 大体系、 7 项标准和 8 套工具。 其中1 个平台是指数据资源平台( DataWorks ); 4 大体系是指全域数据汇聚技术、数据融合加工工艺、数据治理方法体系和数据开放共享机制; 7 项标准包括基础源数据标准、 DW 主题模型规范、 ETL 开发规范、数据资源目录规范、数据质量规范、数据安全规范和数据开放共享服务规范; 8 套工具包括数据集成工具、数据开发 IDE 、数据建模工具、数据资产管理系统、数据质量管理系统、数据安全管理系统、稳定性监控运维和数据服务。
具体案例分析
最后我们结合两个具体的案例来分享DataWorks 在实际生活中的应用。
案例一:政务共享交换平台
政务共享交换平台主要是依靠于数据仓库完成以后,依靠数据服务实现数据交换的共享支撑。图中所示政务数据共享平台和政务数据开放平台区别在于:前者是指政务各个委办局(如工商局、交通局)之间内部进行数据交换的平台;后者是政府对社会公开数据的平台。
通过数据API 服务将各个委办局的业务系统中的数据库表快速生成数据 API ,再通过数据服务内部的 API 网关服务提供 API 的鉴权、流控、调用等 SDK 服务;再根据 API 的开放属性,分别进入政府数据共享平台及数据开放平台,供各委办局或社会公众订阅和调用。
案例二:某城市大脑架构
上图是某城市大脑数据资源平台数据资源建设的架构图,该架构基于DataWorks 数据治理体系,可以分为城市数据资源汇聚、融合数据、数据资产三部分:
· 城市数据资源汇聚,如图底部所示,将不同来源的数据汇聚到数据中心,融合人口、地理信息等基础数据库,信用、权力等主题数据库,交通、环保、安监等领域数据库,教育、健康、金融等枢纽信息以及互联网等外部数据进行下一步处理; · 融合数据,通过使用DataWorks 数据开发模块进行数据进行深度挖掘和再利用,实现从数据到智慧的价值转换。围绕数据挖掘、知识运用、业务建模、融合分析、规则引擎、可视化展现等方面对初步处理过的数据进行深度开发利用,形成知识和决策辅助信息。 · 数据资产管理,围绕存储、处理、交换、共享等环节实现信息汇集和数据治理,强化数据质量、数据安全以及数据监控等,为数据资源的开发利用做好一级准备。 本文由云栖志愿小组刘崇鑫整理编辑
关于分享者:
张辉 , 花名士诚, 阿里云大数据专家 DataWorks 产品负责人。