数字化转型-大数据平台建设

55 阅读9分钟

过去,一些企业在转型时,更多关注技术新不新、工具强不强、某一环节的问题能否得到解决、是否能在短期带来效益。随着数字化转型程度加深,发展重点应转向数字化业务的覆盖面与商业模式的有效性,应更加关注管理流程是否集约、人才结构是否适配等,进而让数字化战略持续驱动企业发展。    

数字化转型是指以数字化技术为基础,构建和物理世界对应的数字世界。数字化转型以数据为核心,人工智能为手段,云化服务为形式,企业组织制度流程优化重构和人才文化为保障。数字化转型是一项涉及数据、技术、流程、组织等要素的系统性工程。

    如何采集、建设、管理、用好数据成为数字化转型的重中之重,本文主要介绍数字化转型中大数据体系建设。

一、某传统企业的数字化转型之路

1. 成立之初

       业务驱动型公司,通过线下跑客户的方式进行运营,这个时候通过办公office就能满足日常经营。

2. 成长期

       随着公司规模越来越大,分工越来越细、流程越来越复杂。为快速支持业务发展,公司通过外包的方式购买CRM、ERP等系统,简化了部分流程提升用户体验,同时这个阶段开始积累数据。

3. 技术建设

系统定制化需求、数据安全、信息化、汇总企业运营数据等问题促使公司急需自己的技术团队。

如企业负责人需要了解整个企业的经营数据,由于没有现成的系统,这就首先需要不同部门上报自己部门的数据,再经过汇总这些的数据,流程繁琐且时效性低,让负责人十分头疼。技术团队通过打通各个外包系统链路,将企业经营全貌的数据通过不同维度展示出来。

4. 数据建设

       慢慢一些问题出现了:数据口径不统一(不同部门整理出来的数据相互矛盾)、数据存在重复开发、数据实时性达不到、系统瓶颈等,为了管理和治理好这些数据问题,引入数据团队通过接入不同业务系统的数据,搭建数据平台,统一口径、清晰数据层级、避免重复开发。

5. 组织、文化建设

虽然技术和数据建设都已完善,相对应的一些“副作用”也开始出现:

  • 企业员工及中层管理接受数字化的能力有待提高;业务提出的需求往往是单纯的取数,缺少数据分析的思维

  • 缺少完整的数据培训体系;

  • 未真正做到“一切以数据说话”;

  • 组织形态、组织架构依旧未有变动

数字化转型不仅仅是技术上的升级,更要从业务形态、组织架构到企业文化等方面全面转变。

二、阿里大数据体系建设

此处以阿里大数据体系建设为例。包含业务数据、数据接入、数据计算、数据访问以及数据应用五个部分。

image.png

1. 业务数据

    业务数据库:来自淘宝、天猫、支付宝、高德、本地生活等系统的数据,包括商品、物流、用户、日志等数据。

    埋点数据:用户点击、浏览时长、地理位置等等

2. 数据接入

    数据分布在不同业务系统中,数据接入就是将不同业务系统的数据统一采集。

    采集方式上根据业务使用场景不同分为离线采集和实时采集两种。

3. 数据计算

       数据计算部分可以理解为数据仓库建设:数据 + 计算(离线跑批、实时流)+存储。

4. 数据访问

    数据服务作为统一的数据服务出口,实现了数据的统一管理,有效地降低数据开放门槛的同时,保障了数据开放的安全。

5. 数据应用

    依靠底层能力,构建上层数据应用,起到降本增效的效果。这里以标签画像平台、用户增长平台以及BI可视化分析平台为例。

   标签画像平台:通过用户基础信息(基础特征、会员特征、资产情况、地理位置)、行为属性(浏览、加购、收藏)、偏好属性(价格、口味、兴趣爱好)、交易属性(本地生活、淘宝、支付宝)等等这些信息刻画用户画像。

    用户增长平台:通过丰富的用户洞察模型和便捷的策略配置,完成消费者多维洞察分析和多渠道触达,助力企业实现用户增长。

    BI可视化分析:提升数据分析和报表开发效率。

三、数据建设的核心

1. 实时计算

    通过实时计算引擎将实时流数据处理之后放到OLAP、OLTP等数据源,供后续消费。

image.png

2. 数仓分层和维度建模

    传统行业如银行、制造业、电信、零售等行业中,都有比较成熟的主题划分,如BDWM、FS-LDM、MLDM等等。但从实际调研情况来看,主题划分太抽象会造成对业务理解和开发成本较高,不适用互联网行业。

    数仓建设过程中有两种方式:自上而下(面向全局)和自下而上(业务需求出发)

    首先为何要对数据仓库进行分层?

    •清晰数据结构:让每个数据层都有自己的作用和职责,在使用和维护的时候能够更方便和理解

    •复杂问题简化:将一个复杂的任务拆解成多个步骤来分步骤完成,每个层只解决特定的问题

    •统一数据口径:通过数据分层,提供统一的数据出口,统一输出口径,同时提供数据血缘分析,如何某张表有问题或者变动,很容易分析出影响范围。

    •减少重复开发:规范数据分层,开发通用的中间层,可以极大地减少重复计算的工作

    常见的数仓分层如下:

image.png

维度建模常见的两种模型:星型模型和雪花模型。

星型模型,一种多维的数据关系,由一张事实表和一组维表组成。该方式主要带来的好处是能够提升查询效率、可读性好,不用关联多个表就能获取大部分核心信息,设计维护相对比较简答,数仓建设一般使用星型模型。

image.png 雪花模型,一个或者多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上。该方式是比较符合数据库范式的理念,设计方式比较正规,数据冗余少,但在查询效率较低(需要多次join),此外规范化操作在后期维护比较复杂。

image.png

3.  OneData理论

    参考阿里OneData理论,由于篇幅限制未具体展开。

(1) 基本概念

   业务过程:指企业的业务活动中的事件,例如下单、支付和退款。

   数据域:指面向业务分析,将业务过程或者维度进行抽象的集合,如商品域、会员店铺域、日志域等。

   时间周期:用来明确数据统计的事件范围或者时间点,如近30天、截至当前。

   修饰类型:对修饰词的一种抽象划分。

   修饰词:指除统计维度外指标的业务场景限定抽象,如访问终端类型下的PC、安卓、苹果。

   度量/原子指标:具有明确含义的业务名词。如:支付金额。

   维度:维度是人们观察事物的角度,是确定事物的多方位、多角度、多层次的条件和概念。如地理维度、时间维度。

   派生指标:原子指标+多个修饰词(可选)+时间周期。

image.png

(2) 命名规范
  • 表命名规范:如:<< span="">数据层次><业务域名称><数据域名称><业务过程名称|自定义表名><刷新周期+存储策略>

  • 字段命名规范:如:天分区(ds\dt)、小时分区(hh)

  • 任务命名规范:对于加工表数据的任务,任务名一般以表名命名

(3)一些约定
  • 涉及遵守高内聚、低耦合原则。
  • 应用层优先调用公共层数据。
  • 已经存在的中间层数据,不允许应用层跨中间层从ODS层重复加工数据。
  • 中间层团队应该积极了解应用层数据的建设需求,将公用的数据沉淀到公共层,为其他团队提供数据服务。
  • 应用层团队也需要积极配合中间层团队进行数据公共层建设的改造和迁移。

4. 数据管理

    数据全生命周期管理中还会涉及数据质量管理、资产数据展示、数据安全以及数据治理。

(1) 数据质量

    数据的多样性、系统复杂性、人员技术的不确定性等问题造成数据质量无法得到保障,这就需要对数据质量的时效性、准确性、完整性、一致性、有效性做到统一管理。

image.png

(2) 资产地图

    对数据资产进行系统化管理。

  • 对整个资产有一个全局的了解,目前总任务个数、总表数、占用的总资源等等
  • 数据细节,如表的信息,创建人是谁、表生命周期、表字段有哪些等等

image.png

(3) 数据安全

    数据安全主要涉及权限的申请和审批、数据脱敏两类。

  • 权限的申请和审批;权限精细化管理,如表权限管理,未经表Owner同意不允许轻易访问,针对一些包含敏感数据(如身份证号)的数据需要数据接口人审批同意
  • 数据脱敏;脱敏明文敏感数据,保证业务数据安全

image.png

(4) 数据治理

    治理低价值、异常以及不合理的数据资产或任务,全局把控计算与存储成本,提升系统使用效率。

image.png

(5) 数据访问

    数据服务作为统一的数据服务出口,实现了数据的统一管理,有效地降低数据开放门槛的同时,保障了数据开放的安全。

image.png

四、写在最后

大数据体系建设不是笔者三言两语就能描述清楚的,这里只是介绍一些流程和概念。希望对你有所帮助。后续会介绍一下这些平台如何建设。