文章讨论了现代数据团队面临的挑战,源于数据、工作流和基础设施层级的孤立。强调了统一编排的重要性,通过集成可观测性、标准化和自动化,提高可靠性、加速开发并降低成本。实施跨层监控后,故障排除时间缩短,分析师报告更自信,并减少了员工离职率。
译自:How Unified Orchestration Helps Cut Cloud Costs by 40%
作者:Julian LaNeve
数据已今非昔比。十年前,组织机构还在使用仓库中的静态行数据。而现在,我们处理的是将源数据相结合的鲜活产品,包括元数据、转换逻辑、文档、测试和访问策略。我们正在将这些用于从基本分析到复杂人工智能系统的各种用途,以做出实时决策——但其复杂性正在阻碍大多数团队的发展。
我看到过团队努力协调这些错综复杂的系统,它们涉及数百个管道和依赖项。每天,数据工程师都面临着碎片化的编排、低效的资源分配和无休止的救火。他们中的大多数人只是不堪重负,在故障已经扰乱生产系统后,才手忙脚乱地做出响应,同时还要应对愤怒的利益相关者要求给出解释。
几乎每个月,我们都会看到简单的模式更改导致下游管道出现级联故障。团队花费数天时间来绘制无人记录的依赖关系。等到一切都修复完毕时,关键的报告截止日期往往已经错过。
现代数据团队崩溃的 3 层问题
以我的经验来看,现代数据编排之所以会崩溃,是因为组织机构正在处理几乎互不相关的三个层级:
- 数据层: 信息存储的地方。
- 工作流层: 我们处理和移动数据的方式。
- 基础设施层: 运行一切的计算资源。
在大多数公司,这些层级都在完全孤立的状态下运行。我见过数据层中一个简单的模式更改如何触发整个工作流和基础设施中的故障。如果没有统一的系统,他们总是在出现问题时手忙脚乱地进行修复。
我们经常看到机器学习预测作业在流量高峰期失败。数据团队添加了新字段,从而增加了表的大小,但基础设施团队无法了解这些更改,因此未能相应地扩展资源。这导致了关键系统(例如欺诈检测)在最重要的业务期间出现重大停机。
资源调配是我观察到的另一个问题。组织机构要么在这个问题上投入过多的资金,要么低估了需求而错过了截止日期。团队构建的自定义解决方案通常会使情况变得更糟。
我们的一些客户经常在空闲时运行管道,这通常是因为过去发生过中断,导致对优化产生了一种制度性的恐惧。这每个月都会浪费大量的云预算,但实施自动扩展的审批流程通常比直接烧钱花费的时间更长。没有人愿意碰那些“能用”的东西。
在同一组织机构中,不同的团队使用多种不同的编排系统是很常见的。新员工入职需要花费数周的时间,因为流程仅作为部落知识存在。新员工经常会弄坏东西,因为没有人记录其他人都已经记住的随机边缘情况和解决方法。
工程师通常会花费大量时间来标准化来自销售系统的传入数据。字段格式会意外更改,关键信息会丢失,并且不同的团队对输入规则的解释也不同。很多时候,感觉自己更像是一名清洁工,而不是一名工程师。
从被动救火到主动管理
数据编排必须从组织机构现在通常拥有的那种临时拼凑的混乱状态,演变为一种有凝聚力的、全栈策略。我们需要统一数据、工作流和基础设施之间的编排,并在每个级别都内置可观测性。
当我们在我目前的公司实施跨层监控时,效果立竿见影。
通过适当的监控,我们可以定期识别出第三方 API 更改在影响记录大小并在其到达生产环境之前的情况。问题不再是在半夜接听灾难电话,而是在正常工作时间内得到解决,并且下游用户也不会受到影响。这极大地提高了系统可靠性和团队福祉。
统一的系统改变了我们处理数据产品的可靠性和信任度的方式。它可以让我们了解哪些任务已运行、它们的顺序以及它们是否满足服务级别协议 (SLA)。这不仅改变了我们的技术方法,而且改变了业务用户看待我们数据的方式。
在实施沿袭跟踪之后,我们观察到分析师不再在其报告中添加免责声明。以前,他们会以“假设数据正确……”开始演示。现在,他们可以自信地解释数据来自何处、应用了哪些转换以及上次验证的时间。数据信任评分通常在这些实施之后显示出显着提高。
统一编排的优势
采用全栈编排可带来可以衡量的具体优势。通过在所有地方集成可观测性,我们极大地提高了可靠性,并使依赖项管理变得易于管理。
一旦实施了统一跟踪,平均故障排除时间通常会从数小时缩短到数分钟。团队可以立即看到导致问题的原因,而不是每个人都互相指责并挖掘来自多个系统的日志。
标准化也极大地提高了我们的开发速度。团队可以更快地行动,并在没有与脱节系统对抗的情况下更好地协作。实时资源监控改变了我们的基础设施成本。
公司通常会在降低云成本的同时提高可靠性。资源不再是过度调配一切,而是根据实际需求进行扩展。许多团队全天候在大型实例上运行作业,因为没有人愿意为另一次中断负责,但基于输入数据量的自动扩展消除了这种浪费。
对我来说,最大的收获是我的团队实际从事的工作发生了转变。自动化处理了重复性任务和救火工作,而这些工作过去占据了我们大部分时间。
具有良好编排的团队始终比修复损坏的团队花费更多的时间来构建新功能。他们部署数据产品的速度比以前快得多。随叫随到轮换从有保障的噩梦周转变为大部分时间都很安静的轮班。我们甚至观察到在实施这些更改后,组织机构的员工离职率有所降低。
未来要么统一,要么崩溃
统一编排至关重要。我们需要将软件工程最佳实践(例如自动化和自我修复)融入到数据管理中的平台。如果没有这个,随着数据量和业务需求的增加,我们将继续被复杂性所淹没。
当数据系统可靠地工作并快速适应时,数据就成为一种真正具有战略意义的资产,而不是我们总是为此道歉的东西。
那些拥抱这种向统一的、主动的编排转变的公司将获得竞争优势。他们会将数据产品转变为可靠、可扩展且安全的资产,从而兑现我们多年来一直在向利益相关者做出的所有承诺。其余的人将继续战斗,直到他们精疲力竭或被取代。