数据中台趋势

247 阅读13分钟

Hadoop集群

image.png

  • Hadoop集群:
    • HDFS集群
    • YARN集群
    • 逻辑上隔离, 物理上在一起

Hadoop部署模式

image.png

数据中台的趋势

  • 第一个趋势:数据服务化

    未来需要一种多云适配能力,能够丝滑无感地调用数据,使得客户感知不到数据的来源和落地。 而这种能力主要体现在:

    • 传统数据存储技术与云计算数据存储技术的连接;
    • 线上和线下数据、结构化和非结构化数据连接,过往的ERP数据是结构化的,而监控音视频的数据是非结构化的。结构化与非结构化之间如何适配,是挖掘“数据金矿”的重点和难点。

    综上,我们大胆预判:未来,数据存储将全面服务化,不再是单一的基础模式,而是一种组合能力。

  • 第二个趋势:向操作系统方向演进

    数字化转型过程中,会应用特别多的数据处理技术,例如区块链、AI建模本质都是一种数据处理技术。但技术发展永远都会快于人的认知提高,无论是企业还是政府,无法做到追随每个领域的技术演进。于是,我们设想,市场上将兴起“数据处理技术适配”。

    而什么叫数据处理适配呢?过去数据处理技术,需要在多云、多平台、多数据库之间来回切换,而在未来,我们可能通过统一操作界面就能够完成。

    结合第一个趋势,数据中台接下来会往操作系统的方向演进,未来成为真正意义上的数据操作系统。

  • 第三个趋势:变为数字化转型的基础技术平台

    数字化转型的核心在于将企业、政府信息化时代“业务数据化”所产生的数据,进一步业务化赋能。在接下来五年,数据中台将承担这一重要职责,进而慢慢落地成为数字化转型的基础技术平台。

    无论什么样的业务体系,所有产生的数据都能够通过数据中台加工、应用。这也意味着,未来,在数据应用领域即将孵化出一些新型产品或者技术。

  • 第四个趋势:DPaaS平台化

    再大胆推测一下,未来五年,数据中台往服务方向走,不再是单个的场景或是应用,而是作为DPaaS(Data Platform as a Service)平台独立存在,向下承接Iaas的适配能力,向上扩展Saas的适配能力。

  • 第五个趋势:第三方服务商兴起

    在数据中台市场中,客户侧的顶级企业肯定会第一时间选择自建,但我们预测,绝大多数企业将受困于自身的业务逻辑、业务框架,视野逐步被限制,最终会以更开放的心态去接纳第三方服务商。

    以史为鉴,ERP、数据库、操作系统……历史上每一款企业级数字化应用都无外乎如此。

数据中台趋势

  • 数据中台重构企业IT架构
    • 打通全数据,将不同平台下分散的烟囱式系统集群变革为部署在同一平台下基于服务的应用系统集群;确保同一类或同一数据来源的唯一性,数据集中化存储;减少IT系统重复建设;
  • 数据中台建设从技术驱动转向场景驱动
    • 前期是IT牵头、技术驱动模式,平台上了没有引用场景
    • 以业务场景为核心阶段,从业务场景蓝图,探索和识别数据利用的价值场景,不同业务价值场景对于数据、技术的需求抽象建模成数据服务目录,由业务场景牵引逐步建设、快速迭代。
  • 数据中台与原有IT系统进行渐进式融合
    • 基于渐进、共存和融合的原则,而不是推倒重建
  • 数据中台与数据治理同生共长
    • 数据中台内汇聚的数据,必须要解决数据管理和数据使用的问题,数据治理渗透于从数据产生到应用的全生命周期中,实现数据资产化,推动数据资产变现
    • 数据中台打通数据壁垒,把各种结构化、半结构化、非结构化数据汇入数据仓库,通过元数据管理平台,开展数据管理,形成数据资产,提供场景化数据服务
    • 数据治理能够提升数据质量,加强数据中台服务能力,不断验证和优化数据中台架构合理性、有效性;
  • 数据中台+AI擎起数据分析的未来
    • 数据中台是数据的加工厂
    • 依托数据中台,可以实时、多维的分析数据,通过AI可以智能、自动的数据分析。如电商动态定价可以达到每天数百万次价格调整。如基于客户大数据开展客户收费和收入预测、客户流失预测。自然语言理解、知识图谱、数据分析等嵌入管理驾驶舱和移动门户,系统具有智能交互、智能理解、智能分析、智能可视化、智能推荐、智能预警、社交协同、轻量级部署等功能,提高了数据应用的便捷性,提升了决策的效率和准确性。如双十一网购电商系统的“猜你喜欢”和推荐。
  • 数据中台与SaaS系统加速融合
    • 云计算普及,各种前后台都SaaS化,数据中台朝着SaaS和本地部署双模式混合模式发展
  • 数据中太从技术平台演进为组织单元
    • 当前是技术平台类项目形式开展数据中台建设,未来或将变为企业的组织单元

    • 替代ERP系统,充分利用数据、挖掘数据资产价值的承载体。

数据中台的核心产品化组件

image.png

  • 从数据角度(IT角度): 已知数据、未知数据
  • 从问题角度(业务角度):已知问题、未知问题
  • 中台是为了复用数据,并且放在数据资产库中,数据目录,大多数属于未知数据和未知问题; 真正的数据目录,应该有业务部门参与,共同完善,实现业务语义的逐步净化
  • 通过ETL工具实现数据整合,包括数据的批处理、数据的复制、流数据管理等,解决的是已知数据和已知问题。在数据整合的过程中,要让业务侧用户有获得数据的能力,所以数据中台要具备自主部署能力。
  • 数据虚拟化,在数据还没有或不用物理位置移动的情况下,依旧可以在一个虚拟层进行分析和应用。一旦市场上有了A厂商和B厂商的产品,企业想把它们的数据源整合到数据中台时,就需要通过数据虚拟化来实现,在虚拟层上完成可复用的数据能力建设。

数据中台应该是个组装式能力创新平台

image.png

  • 组装式分析架构,是基于智能化的采集和连接,帮助用户实现自助式分析。
  • 但数据编排可以给用户提供合适数据,能够建立一些分析型应用的时候,企业可以通过组装的形式把一个个和数据相关的产品直接整合,而不是每次都从零开始。所以,中台建设的最终目标,其实是让用户基于数据进行组装。
  • 成功的数据中台,应该是一个组装型能力平台,带来的是一个个和数据分析相关的能力,而不仅仅是数据的复用。企业可以通过自助式分析,找到可复用的数据分析能力模块,并以组长的形式构建符合业务需求的分析型应用。 = 组装式分析架构底层依赖于数据编排设计模式,上一层是企业已有的“报表平台、分析工作站、自助式分析平台、数据科学平台“等等,并且这些能力平台被微服务化和容器化,以高度开放性确保用户上了中台后,可以获得组装式体验。
  • 原来越多的DevOps实践放到与数据相关应用上,变为DataOps,包括版本控制、持续集成、持续开发、CAID理论等,可以助力数据应用开发快速走向生产阶段。

数据中台演进的四个阶段

image.png image.png

  • 第一个阶段:数据库阶段,为了解决OLTP(联机事务处理)的需求, 就是前端+数据库,将用户行为存入数据库,用来进行事务处理。逐步进入第二个阶段,对数据进行分析的需求出现
  • 第二个阶段:数据仓库阶段, 为了解决OLAP(练级分析处理)的需求,不仅仅是存储数据,还需要根据数据进行分析,如淘宝,每天大量的交易数据,可以分析出交易来自哪些人,哪群人、哪部分地方销量好等等,可以进行事后的差异分析和追溯分析
  • 第三个阶段:数据平台阶段,解决海量数据分析问题,主要是技术问题。比如阿里用Oracle建立数据仓库,数据量增长太快,节点用完。 后来用Hadoop代替增加数据处理的能力和容量,海量数据处理和大规模并行处理的优势。
  • 第四个阶段: 数据中台阶段, 主要将分析结果变成运营动作,传统IT建设,各种信息系统大多独立建设,无法信息互联互通,数据孤岛,鼓励数据无法支撑企业经营决策。需要一套机制,整合分散的数据,快速形成数据服务,为经营决策提供支持。

数据中台四大能力:

  • 数据整合
  • 数据资产化: 对数据进行加工, 形成标准的资产体系,为后面的服务提供基础。
  • 数据服务价值化: 把数据尽快用起来,把有价值的资产共享出去,需要提供数据服务。
  • 数据分析应用:可视化需求,中台需要有数据分析能力,实现数据资产的可视化分析,为企业数据化运营赋能。

数据中台架构

image.png

image.png

  • 数据资产的规划和治理: 从业务架构思考数据资产, 数据资产不同于数据, 是能为业务产生价值的数据。 同一堆数据,不同业务部门所关注的数据指标可能完全不同,怎么让各个跨域的业务变成统一的标准,就需要规划企业的数据全景图,将所有有可能用上的、所有对企业有可能有价值的数据都规划出来,最终梳理出数据资产目录。
  • 数据的共享和协作:让所有人都知道数据资产目录在哪里,共享数据,让数据流动起来
  • 业务价值的探索和分析:中台不仅要建立到源数据的通路,还需要提供分析数据的工具和能力,帮助业务人员去探索和发现数据的业务价值。 针对不同的业务岗位的用户,提供个性化的数据探索和分析的工具,在此基础上一键生成数据结构,以多样化的方式提供给前台系统
  • 数据服务的构建和治理: 数据中台会不断生长各种数据服务,一开始就构建好数据服务的治理结构,数据服务需要可以被记录、被跟踪、被审计、被监控
  • 数据服务的度量和运营: 数据中台不仅仅是把数据给到业务人员,它不是仅仅定位为数据搬运工。还需要具备度量和运营数据服务的能力,能够对中台上提供的数据服务以及相关行为持续跟踪和记录,包括哪些数据服务被哪个部门使用、用了多少次等,通过这些去度量每一个数据服务的业务价值。

数据中台的最终是为了解决问题,数据怎么用,如何产生跟打的价值,需要不断的进行资产化、服务化,帮助业务梳理业务场景,对未来场景的能力支撑。

image.png

  • 业务中台中沉淀的业务数据进入到数据中台进行体系化的加工,再以服务化的方式支撑业务中台上的应用,循环不息的数据闭环
  • 业务中台只是数据中台的数据源之一,数据中台的数据服务也并非必须经过业务中台才能作用于业务

亿信华辰

image.png

数据中台Top公司

image.png

image.png

数据中台行业白皮书

艾瑞咨询:2021年中国数据中台行业白皮书(附下载) | 互联网数据资讯网-199IT | 中文互联网数据研究资讯中心-199IT

  • 数据中台不是简单的一套软件系统或者标准化产品, 更多的是一种强调资源整合、集中配置、能力沉淀、分布执行的运作机制,是一系列数据组件或模块的集合,为数据治理效率的提升、业务流程与组织架构的升级、运营与决策的精细化化赋能
  • 数据中台集中度较低,各种公有云、数字化解决方案提供商、数据与智能公司及垂直独立中台开发商均纷纷入局,随着数据中台技术架构和方法论趋于完善,现阶段建设难点多集中在如何将成熟的技术方案与行业及企业的实际情况和特征结合,即企业更需要厂商切身的咨询规划服务,以发挥数据中台的效能。

image.png

image.png

image.png

image.png

Reference

  • 一定要找准创新项目的切入点和目标, 是技术架构还是数据治理,或者是数据开发?一定要清楚既有的痛点和未来的断代目标
  • 充分参考阿里、华为等公有云的数据中台特征和技术方案, 以及Top数据中台的特征和技术方案
  • 瞄准下一代,逐步开展,具有断代特征
papers

从数据仓库到大数据平台再到数据中台 blog.51cto.com/baoqiangwan…

数据中台未来一定需要具备三种能力 - 简书 (jianshu.com)

[艾瑞咨询:2021年中国数据中台行业白皮书(附下载) | 互联网数据资讯网-199IT | 中文互联网数据研究资讯中心-199IT]

什么是OneData?阿里数据中台实施方法论解读_数据中台_云祁_InfoQ写作社区

华为数据中台架构设计分享 - 报告精读 - 未来智库 (vzkoo.com)

(127条消息) 大数据框架--hadoop、spark、storm、flink、Samza介绍_戰士的博客-CSDN博客