从 AirFlow+EMR 到一站式平台:数新智能助力某运动品牌实现云上数据平台统一治理与成本优化

7 阅读6分钟

当下全球电商赛道竞争激烈,数据驱动的企业敏捷性直接决定品牌增长的上限。某全球知名运动休闲服饰品牌(以下简称“该品牌”)在业务全球化过程中,曾基于 AWS 构建了由 AirFlow、Amazon EMR 和 Amazon RedShift 组成的数据技术栈。然而,工具链的割裂让习惯了一体化平台的团队效率受限,成本控制与深度分析也面临挑战。

为破局,该品牌携手数新智能,以云原生数据平台 CyberData 为核心,在 AWS 上重构了统一的数据开发治理体系。本次升级不仅整合了工作流,更关键的是,通过深度释放 Amazon Redshift 云数据仓库的潜能,将数据平台从“成本中心”转型为驱动精准决策的“价值引擎”。

关于客户

该品牌业务遍及北美、欧洲、亚太等多个海外市场。面对高速增长的线上业务与激烈的市场竞争,数据驱动已成为其产品创新、精准营销和供应链优化的核心引擎。品牌数据团队亟需一个敏捷、高效且易用的数据平台,以支持其全球化业务决策。

客户挑战

此客户早前在AWS上采用AirFlow进行任务调度,配合 Amazon EMR 与 Amazon RedShift 构建了大数据处理链路。然而,这套组合方案在实际使用中给团队带来了显著挑战:

  • 体验割裂,效率低下:数据开发、任务调度与数据分析分散于 AirFlow、Amazon EMR 和 Amazon  RedShift 等多个独立工具中,团队协作链路断裂,严重拖慢了从数据到洞察的交付速度。

  • 成本与性能难以兼得:为满足不定时的分析需求,传统 Amazon RedShift 集群常需过度配置以保留性能冗余,导致在非高峰时段资源闲置,计算成本高企。

  • 数据价值挖掘深度不足:尽管 Amazon RedShift 存储了核心数据,但由于缺乏与上游开发流程统一的元数据管理与质量监控,数据可信度和发现效率不高,限制了复杂分析与预测模型的开发。

解决方案

建立全链路数据血缘与质量标准

根据该品牌的业务需求,数新智能 CyberData 内置的数据地图、数据质量监控与资产治理模块,帮助客户建立了从数据接入(ODS)、整合处理(DWD)、服务汇总(DWS)到应用层(ADS)的全链路血缘关系与质量标准。对包括 Amazon Redshift 在内的所有数据引擎进行智能化管控与协同,实现了控制面与计算面的分离,既保障了平台体验的统一,又充分发挥了 AWS 各计算引擎的性能与成本优势。

核心 AWS 技术特性的场景化落地

我们深度结合AWS的原生服务能力,精准解决客户的业务痛点,实现技术价值最大化:

智能管理最大化性价比

  • 利用RA3节点实现存储计算分离:对于稳定的批量ETL与报表任务,平台将其调度至采用RA3节点的 Amazon Redshift集群。RA3的存储与计算分离架构,允许独立扩展性能与容量,并依托 Amazon Redshift Managed Storage 自动优化数据布局,企业仅需为实际使用的计算资源付费,显著降低了海量数据处理的总体拥有成本(TCO)。
  • 借助Serverless应对弹性峰值:针对业务人员高并发的即席查询与促销期间的突发负载,平台无缝调用 Amazon Redshift Serverless。该服务可在秒级自动扩展,处理数千个并发查询,并在工作完成后自动归零,真正实现为查询价值付费,完美平衡成本与性能。

统一治理提升数据资产可信度

  • 端到端血缘与影响分析:通过 CyberData 的统一元数据服务,可清晰追溯从数据源到 Amazon Redshift 核心报表的完整链路。当上游任务异常时,能分钟级定位对所有下游 Amazon Redshift 表与业务洞察的影响范围,极大提升运维效率与数据可靠性。
  • 数据质量内嵌保障分析基石:在数据写入 Amazon Redshift 的前后环节均设置质量规则,确保用于决策分析的数据干净、可信,从根本上提升所有基于 Amazon Redshift 的 BI 报表与模型输出的准确性。

云原生协同优化分析流水线

平台构建了以 Amazon Redshift 为分析核心的高效流水线:通过智能编排,利用  Amazon EMR Serverless 处理原始数据,借助 Amazon Redshift Spectrum 直接查询 Amazon S3 数据湖中的原始或温热数据,或通过高效方式将加工后的结果加载至 Amazon Redshift 供关键业务查询,实现湖仓一体的协同分析。

架构应用

根据该品牌的业务需求与实际挑战,我们构建了如下图所示的 AWS 现代化数据架构。该架构整合多项 AWS 云服务,以 Amazon Redshift 为中枢,打造统一、高效、弹性的企业级数据平台。

图片

项目价值

项目上线后,该品牌的数据平台实现了全面升级:

  • 分析效率与深度双提升:依托Amazon Redshift Serverless的弹性能力,高并发即席查询响应速度提升 50% 以上,无资源排队等待,基于 Amazon Redshift 的并行计算能力,完成跨区域销售数据的深度拆解。
  • 成本实现精细控制:通过智能调度与 Amazon Redshift RA3 节点、Serverless 模式的结合,在支撑更大数据量与更复杂分析的同时,整体分析层计算成本节约超 35%。
  • 数据信任与协作文化建立:统一的数据资产目录与可视化血缘,让业务部门能自主、放心地使用 Amazon Redshift 中的数据,数据团队从繁琐的 “取数” 工作中解放,专注于更高价值的模型构建。

该品牌的实践表明,在数据量激增的时代,云数据仓库已不仅是存储历史的“档案馆”,更是驱动实时业务的“决策大脑”。数新智能通过 CyberData 平台与 Amazon Redshift 云原生服务的深度融合,不仅帮助客户实现了工具链的统一,更关键在于深度激活了 Amazon Redshift 在性能、弹性与成本方面的原生优势,将其转化为可持续的竞争优势。

我们认为,未来的数据平台不应是各种独立工具的简单堆砌,而应是一个体验统一、引擎智能、治理内嵌的有机整体。CyberData平台的核心理念,正是将企业从“运维复杂基础设施”的沉重负担中解放出来,回归到“专注数据价值创造”的本质上来。