站点可靠性工程师角色的演变:平衡可靠性、成本和创新

153 阅读18分钟

作者:来自 Elastic David Hope

了解 SRE(Site Reliability Engineer)不断扩展的角色以及所需的新技能:成本管理和 AI。

想象一下,CTO 走进你的团队会议,抛出一个重磅炸弹:“我们需要在本季度将云成本削减 30%。” 作为首席 SRE,这可能会引起强烈反应 —— 你的工作不是确保可靠性吗?你是什么时候开始负责公司的云账单的?

如果你有过类似的经历,你并不孤单。站点可靠性工程师 (SRE) 的角色正在快速演变。最近对可观察性从业人员的调查揭示了这种转变,揭示了我们这些 SRE 一线人员面临的挑战和机遇。

大多数 SRE 都热爱他们的工作

高达 94% 的受访 SRE 表示他们会向同事推荐这个职位。这是我听过的响亮的推荐。

但为什么 SRE 如此热爱这份工作?调查提供了一些线索:

  • 90% 的 SRE 认为这份工作很有趣,并且提供了学习业务和技术的机会。
  • 该职位需要多种技能,让工作充满挑战和吸引力。
  • SRE 通常可以纵观整个系统,从而进行战略思考和有影响力的改进。

SREs 学习业务和技术

这种高工作满意度的基础似乎源于定义 SRE 角色的独特挑战和机遇的融合。虽然许多技术职位可能专注于技术或业务运营的特定方面,但 SRE 可以同时体验两个世界。大多数 SRE 报告称,他们的工作激发了智力,特别是指出业务和技术之间的动态相互作用是他们工作满意度的关键驱动因素。

SREs 面临的挑战在于其多样化的技能组合

SRE 角色之所以特别吸引人,是因为它需要多样化的技能组合。这些专业人员可能花一天时间优化云基础设施;第二天与产品团队合作以改进服务水平目标 (Service Level Objectives - SLOs);另一天设计自动事件响应系统。生成式人工智能 (GenAI) 的出现也为 SREs 打开了潘多拉魔盒,为 SRE 提供了大量新的可能性和技术。这种多样性不仅仅是为了让事情变得有趣。它还代表着专业成长和技能发展的持续机会。

SREs 可以鸟瞰全局

SRE 角色最显着的方面之一是它在组织内提供的独特视角。SRE 对系统保持全面的了解 —— 从基础设施基础到高级业务目标。这种全景视角使他们能够识别可能被关注领域较窄的团队忽视的模式和机会。凭借这种广阔的视野,他们处于独特的位置,可以推动可衡量的改进,从而影响技术指标和业务成果。

SREs:科技界的瑞士军刀

SREs(站点可靠性工程师)这一角色的战略性质使其站在技术创新的最前沿。随着系统变得越来越复杂和分布式,他们在平衡可靠性与快速创新方面的作用变得尤为关键。这些专业人士不仅仅是维护现有系统,还积极塑造现代技术组织的运作方式和扩展模式。

除了技术上的挑战,SREs 角色的核心使命还带来更深层次的满足感。SREs 既是关键系统的架构师,也是其守护者。他们负责确保系统的平稳运行,在危机中迅速介入以恢复稳定,并在问题发生前实施预防措施。

SRE 社区以强调知识共享和协作成长而闻名。这种氛围为专业人士创造了一个积极的环境,使他们能够持续从彼此的经验和创新中学习。正是这种协作精神,使SRE 不仅仅是一份工作,更成为一种实践共同体。

高满意度的反馈向考虑进入这一领域的人们传递了有力的信息。尽管这一角色本身具有挑战性和复杂性,其带来的个人和职业回报却显得物超所值。如果当前的满意度能够作为参考,这一领域可能会变得更加令人向往。

不断扩展的 SRE 工具包

谈到多样化的技能,调查强调了现代 SREs 的一些关键专业领域。

监控和可观察性 (80%)

SRE 技能的核心是监控和可观察性专业知识,五分之四的专业人士认为这是他们工作的关键。这并不奇怪。在当今复杂的分布式系统中,从系统行为中获得有意义的见解的能力不仅有用,而且是根本。现代 SREs 需要浏览大量遥测数据,识别可能影响服务可靠性的模式和异常。

自动化和脚本 (75%)

与可观察性相伴而生的是自动化和脚本艺术,四分之三的受访 SREs 对此表示认可。对自动化的重视反映了该角色的一个核心原则:消除重复任务,专注于更具战略性的工作。无论是部署基础设施即代码、自动化事件响应还是创建自我修复系统,编写高效自动化解决方案的能力都变得非常宝贵。

性能调优和优化 (68%)

性能调优和优化是另一个关键技能领域,超过三分之二的 SREs 强调其重要性。在这个毫秒之差就能决定用户满意度和沮丧程度的时代,识别和解决性能瓶颈的能力变得至关重要。这不仅关乎让系统运行得更快,还关乎理解性能、可靠性和成本之间的微妙平衡。

事件响应和事后分析 (60%)

60% 的 SRE 提到了事件响应和事后分析技能的重要性,这反映了该行业对学习和持续改进的重视。当事件发生时,有效响应并从经验中汲取有意义的教训的能力可能意味着反复出现的问题和系统改进之间的区别。这不仅涉及技术专业知识,还涉及促进无责事后分析和推动组织学习以改进工作流程所需的软技能。

分布式系统设计 (40%)

随着系统变得越来越分散和复杂,分布式系统设计的专业知识变得越来越有价值,五分之二的 SREs 将其视为一项关键技能。随着组织扩大其数字足迹,了解如何跨多个区域、云和技术构建和维护可靠的系统变得至关重要。

成本管理技能的兴起

但最近的调查显示,最有趣的趋势或许是成本管理技能的重要性日益增加。在云复杂性和基础设施成本不断上升的时代,SRE 越来越多地被要求在可靠性和财务效率之间取得平衡。这个新维度为该角色增加了另一层复杂性,要​​求 SREs 考虑其架构决策和优化策略的成本影响。

这种不断发展的技能组合反映了技术格局的更广泛变化。随着组织继续进行数字化转型,SRE 的角色已经超越了传统的运营关注点,涵盖了更广泛的业务关键能力。现代 SRE 需要兼具系统工程师、业务分析师和战略顾问的职责。

对于那些正在考虑从事 SREs 职业或希望发展现有角色的人来说,了解这些关键技能为职业发展提供了宝贵的路线图。所需技能的多样性也凸显了为什么该角色仍然如此引人入胜且具有挑战性 —— 在追求系统可靠性的过程中,总有新的东西需要学习和掌握。

新领域:成本优化

事情变得有趣了。调查显示,85% 的可观察性从业人员对成本管理负有一定责任。对于 31% 的人来说,这是他们工作评估的正式部分。

这种趋势并不是孤立出现的。随着组织继续进行云迁移之旅并扩大其数字足迹,许多组织都经历了云成本迅速上涨的冲击。将云资源视为无限效用的日子正在消逝,取而代之的是平衡技术要求和财务可持续性的更细致入微的方法。

这种转变特别令人着迷的是,它与可观察性从业人员和 SREs 的核心能力自然一致。这些专业人员已经对系统行为、资源利用率和性能模式有了深刻的了解。他们了解哪些服务是必不可少的,哪些服务是过度配置的,以及优化机会在哪里。在许多方面,他们都是领导成本优化计划的理想人选,同时保持服务可靠性。

将成本管理纳入可观察性实践正在改变团队处理系统设计和优化的方式。关于数据保留、采样率和仪器密度的决策现在具有财务影响,必须仔细权衡。问题不再仅仅是 “我们能收集这些数据吗?”,而是 “我们应该收集这些数据吗?以什么粒度收集?”

可观察性工具和基础设施的方法正在发生变化

这种演变也改变了组织处理可观察性工具和基础设施的方式。团队正在寻找既能提供技术见解又能提供成本可见性的解决方案。了解可观察性决策的财务影响(从日志量到指标收集频率)的能力对于做出明智的架构选择至关重要。

31% 的从业人员将成本管理正式纳入工作评估,这表明组织对技术运营与业务成果之间关系的看法日趋成熟。它认识到有效的系统可靠性不仅仅是保持正常运行时间和性能 —— 它还以经济高效的方式做到这一点,以支持业务可持续性。

这种转变也为可观察性从业人员提供了新的机会来向组织展示他们的价值。通过将他们的技术专长与成本优化技能相结合,这些专业人员可以推动影响系统可靠性和底线的改进。在现代技术领域,能够说两种语言(技术和财务)正成为一项越来越有价值的技能。

展望未来,这一趋势表明,可观察性的未来将与财务运营 ( financial operations - FinOps) 实践更加紧密地交织在一起。最成功的从业者将是那些能够有效驾驭这一交叉点、做出明智决策以平衡技术需求和财务约束的人。随着云成本在董事会中继续受到越来越多的关注,可观察性从业者在管理这些成本方面的作用可能会变得越来越重要。

对于该领域的专业人士来说,这种演变既带来了挑战,也带来了机遇。培养成本优化和财务分析技能可能需要走出传统的技术舒适区。然而,推动技术卓越和财务效率的能力使可观察性从业者成为其组织成功的关键战略合作伙伴。

平衡行为:可靠性、成本和创新

那么,我们如何平衡这些相互竞争的优先事项?以下是我发现的一些有效策略:

  1. 将成本视为可靠性问题:就像我们为正常运行时间或延迟设置 SLOs(Service Level Objective) 一样,考虑为成本效率设置目标。这种思维方式可以帮助将成本管理与我们的核心可靠性使命保持一致。
  2. 使用可观察性获取成本洞察:使用你的可观察性工具来了解成本驱动因素。许多平台(包括 Elastic Observability)现在都提供将性能指标与成本数据相关联的功能。
  3. 自动化成本优化:将你的自动化技能应用于成本管理。设置异常支出高峰警报,根据需求自动扩展资源,并为开发人员创建自助服务工具,以了解其设计选择的成本影响。
  4. 跨团队协作:与开发团队密切合作,在开发过程中建立成本意识。这可能涉及创建基于成本的架构决策树或在代码审查中包括成本考虑因素。
  5. 投资 FinOps 知识:熟悉 FinOps 原则和工具。这种新兴做法弥合了财务、技术和业务之间的差距。
  6. 使用人工智能/机器学习 (ML) 进行预测成本管理:调查显示,人工智能/机器学习在可观察性方面变得越来越重要。寻找应用这些技术来主动预测和优化成本的方法。

AI/ML 在不断发展的 SRE 领域中的作用

谈到 AI/ML,调查在这一领域有一些有趣的发现:

  • 72% 的团队已经在使用 AI/ML 进行可观察性用例。
  • 最主要的用例是关联日志、指标和跟踪以进行故障排除。
  • 虽然只有 13% 的人表示他们今天从 AI/ML 中获得了高价值,但 39% 的人预计未来会有高价值。

这些数字讲述了一个有趣的故事:近四分之三的团队已经将 AI/ML 功能纳入他们的可观察性实践中,标志着现代组织在系统监控和故障排除方面的方法发生了重大转变。

如今,AI 在可观察性方面面临的主要挑战集中在该领域最持久的挑战之一:关联不同类型的遥测数据。自动连接日志、指标和跟踪以进行故障排除的能力已成为主要用例 —— 解决了长期困扰可观察性从业者的痛点。这种人工智能应用有助于消除现代分布式系统的复杂性,从而有可能将调查时间从几小时缩短到几分钟。

然而,人工智能在可观察性方面的现状呈现出一个有趣的悖论。虽然采用率很高,但目前只有 13% 的团队报告称从这些技术中获得了高价值。采用率和满意度之间的差距表明我们正处于过渡时期,组织正在积极试验人工智能功能,但尚未完全优化其实施。

但对未来价值的乐观态度令人震惊,近 40% 的团队预计未来几年将从可观察性实践中的人工智能/机器学习中获得高价值。这种信心表明,虽然团队可能在当前的实施中遇到困难,但他们看到了这些技术改变其运营的明显潜力。

人工智能在可观察性方面的发展反映了我们在许多技术变革中看到的更广泛的模式:早期采用侧重于自动化现有流程,随后是更具变革性的应用程序,从根本上改变了我们的工作方式 —— 本质上,跨越了上述技术采用生命周期模型中所见的鸿沟。当前的人工智能实施通常侧重于增强传统的可观察性实践 —— 使现有的工作流程更加高效。真正的转变很可能会在这些技术的成熟和实现理解和维护复杂系统的全新方法时到来。

展望未来

人工智能在可观察性方面的潜在应用远远超出了关联和故障排除。想象一下,系统可以在潜在故障发生之前预测它们,根据不断变化的条件自动调整自己的监控参数,或为复杂的系统查询提供自然语言界面。这些功能虽然仍在兴起,但可以从根本上改变团队处理系统可靠性和性能优化的方式。

调查数据还表明,组织对人工智能与人类专业知识之间关系的看法发生了重要转变。人工智能并没有取代人类的判断,而是越来越多地被视为增强人类能力的工具 —— 帮助从业者处理现代系统日益增长的规模和复杂性,同时让他们专注于更具战略性的工作。

人工智能能力的这种演变还可以帮助解决许多团队面临的日益增长的成本管理责任。先进的人工智能系统可以帮助优化资源利用率,提出节约成本的措施,并在性能要求和预算约束之间取得平衡 —— 同时保持所需的可靠性水平。

对于正在考虑或目前正在实施人工智能支持的可观察性解决方案的组织,这些发现提出了一种慎重的方法:在为其发展做准备的同时,接受该技术的当前能力。专注于具有已证实价值的用例(如遥测关联),同时构建基础知识和基础设施,以便在更先进的功能成熟时利用这些功能。

可观察性方面,AI/ML 的当前价值与预期价值之间的差距既是挑战,也是机遇。虽然团队可能需要降低对立即实现变革性结果的期望,但这些技术彻底改变可观察性实践的潜力仍然很大。随着 AI 能力和团队的不断成熟,组织在实施方面将变得更加复杂。我们也可能会看到这种价值差距缩小,开启智能可观察性实践的新时代,包括成本控制。

拥抱 SRE 的演变

SRE 角色的不断扩大带来了挑战和机遇。是的,我们被要求承担比以往更多的角色。但这也意味着我们有更多机会为组织创造战略价值。

通过承担这些新责任,特别是在成本优化和 AI 方面,我们可以将自己的角色从 “保持灯火通明” 提升到推动业务成功。这难道不是我们许多人进入这个领域的原因吗 —— 为公司和我们服务的用户带来真正的、切实的影响?

因此,如果你的 CTO 向你抛出一个削减成本的重磅消息,请尽量不要感到沮丧。相反,将其视为展示你的 SRE 能力的机会(详情请参阅最近的调查),并以新颖且有效的方式使用你的 AI 工具。毕竟,在 SRE 的世界里,变化是唯一不变的 —— 这正是这份工作如此令人兴奋的原因。

本文中描述的任何特性或功能的发布和时间均由 Elastic 自行决定。任何当前不可用的特性或功能可能无法按时交付或根本无法交付。

在这篇博文中,我们可能使用或提及了第三方生成式 AI 工具,这些工具由其各自的所有者拥有和运营。Elastic 无法控制第三方工具,我们对其内容、操作或使用不承担任何责任,也不对你使用此类工具可能产生的任何损失或损害承担任何责任。在使用 AI 工具处理个人、敏感或机密信息时,请谨慎行事。你提交的任何数据都可能用于 AI 培训或其他目的。我们无法保证你提供的信息将得到安全或保密。在使用任何生成式 AI 工具之前,你应该熟悉其隐私惯例和使用条款。

Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 和相关标志是 Elasticsearch N.V. 在美国和其他国家/地区的商标、徽标或注册商标。所有其他公司和产品名称均为其各自所有者的商标、徽标或注册商标。

原文:www.elastic.co/blog/site-r…