运维、SRE和PE有什么不同?

3,513 阅读3分钟

运维

当前运维团队通常有以下小组组成:

  • 系统运维:SA,负责系统、基础设施的工作
  • 网络运维:NET,负责整个公司的网络
  • 数据库运维:DBA,负责所有数据库相关的工作
  • 应用运维:PE,或者SRE,所有应用相关的工作
  • 技术支持:重要问题、事件、项目活动进行跟进、协调,持续优化等
  • 性能测试:对重要组件的测试、压测,负责容量的管理
  • 监控团队:对于一些可用性要求高的产品,配备24小时的监控值班,负责全部业务的监控及其相关
  • 运维研发:负责运维相关平台、工具研发
  • 项目管理:负责重大项目的协调、管理
  • 桌面运维:HELPDESK,负责全部员工日常办公设备支持
  • 财务:负责运维团队内的报销、财务等工作
  • HRBP:政委.负责人运维相关人员的人力资源相关工作

重点说一下技术支持团队,在重大项目中,起到不可或缺的作用,协调业务、开发、运维等各方人员,资源的调度。在重要事件、故障中进行应急指挥等。

在最后说一下安全团队,安全团队负责网络、系统、应用等安全,通常是单独的一级部门,和运维团队紧密协作,有时候也会划分在运维团队中。

运维团队中,以上的小组并不是所有都必须的,可以根据自己组织的需求,进行调整。

SRE

SRE,Site Reliability Engineering,站点可靠性工程,其关注的焦点在产品的可靠性上,任何一款产品如果不能稳定的使用,就没有了意义。

SRE的方法论:

  • 确保长期关注研发工作
  • 在保障服务SLO的前提下最大化迭代速度
  • 监控系统
  • 应急时间处理
  • 变更管理
  • 需求预测和容量规划
  • 资源部署
  • 效率和性能

一名SRE,应该至少有50%的时间用在软件的开发上,应该对重复性、手动性的工作进行软件化的方式进行替代。要有产品化、工程化的思维方式。终极的目标应该是无人化、智能化运维,而不仅仅是自动化运维。一名合格的SRE员工是非常难以招聘的,通常国内SRE有一个团队组成,这里面包括了专项运维、运维研发等。SRE更应该是一种能力、职业素养。

end

上面写的有点乱,在这里向大家推荐一本书《SRE:Google运维解密》是16年出版的,主要讲Google的SRE、运维等。作为一名应用运维工程师,我觉得开发是基础能力,毕竟小学生都开始学编程了,虽然有很多的开源产品,但有些不应适合自己的公司,有些需要进行二次开发、定制,为了提高工作效率总是需要开发一些工具的,还应该具有产品的思维方式,可以将重复的工作进行软件化、产品化,同时运维还应该是标准的协调、制定者,努力提高智能化、无人化的水平。