DevOps技术运营-SRE 最佳实践

201 阅读3分钟

✨技术运营-SRE 最佳实践

一 运维建设体系

image-20231121145604784

二 运维管理体系

image-20231121144226352

image-20231121144901023

image-20231121144954859

1 SRE是devops最佳实践

FinPos最佳实践 finance+devOps

gitOps最佳实践 外企多

1 finPos

容量管理:

image-20231121151618928

业务流量管理

服务流量管理

1 容量治理目标:满足扩容 缩容 协助成本控制

2 容量管理:

事前容量规划: 上线之前需要多少资源

事中容量监控: 实时获取

事后容量调整:容量应急预案应对突发流量

3 容量治理: 扩容 降级 限流

4 容量优化

应用纬度优化(新上线和准备下线)

架构纬度优化(按SET部署 熔断升级 数据归档 性能优化)

资源纬度优化: 主机降配 混合部署 贷款优化 CDN消峰

运营商收费按峰值取99%

系统功能架构

image-20231121153430134

2 gitOps最佳实践 外企多

AsOps 中的code

image-20231121153843720

gitOps 不是git实践 是将应用系统的基础架构和应用程序放到git仓库

gitOps pipeline 打包docker镜像 自动修改配置

自动化测试需要非常牛 有点理想化

应用交付-流水线即代码 ArgoCD 八爪鱼

查看日志不用vm 可以用ls vm打开大文件会卡

右键不能粘贴

改日志掩盖错误 有堡垒机

所有的脚本必须支持参数

3 google SRE: 软件工程方式做运维

book

第一章 第六章必看 这是一本书

50%时间用于工程工作 写工具

减少琐事

不能追求极致

度量服务风险(宕)

两地三中心一般不能宕 基于时间的可用性 合计可用性

SLI 指标

SLO 目标

SLA 协议

超过SLO怎么办: chubby服务计划内停机事件

错误预算

1-SLO 一个月为单位 错误预算用完了 服务停止变更 直到下一个预算周期

image-20231121161152151

三 持续部署CD

资源社区: www.infoq.cn/

CI/CD/CO 持续运营

技术运营的角度开发 看事情的视角不一样 很多公司没有技术运营

自动化部署-- 流水线

容器化部署

🚦 Q:在容器里面的进程 在宿主机能看到吗 docker?

A: 能看到 容器时隔离 并不是虚拟

不可变基础设施:容器

用替换代替 容器代码打包到docker镜像

k8s

数据库工单系统

四 监控

技术运营体系

监控建设-天眼

可观测 openTracing OpenTelemetry架构

物理设备 IPMI 协议 SNMP协议

分布式网络监控 拨测 Smokeping

主机监控工具集

🚦常用命令集

1 if top 主机和哪个主机正在通信

2 io top 哪些进程在读写

web站点监控

api性能监控-api拨测 服务拨测

数据库和中间件监控

运维监控工具

nagios和prometheus区别:

zabbix优势

beats 数据采集工具集 腾讯 基于这个写的

指标采集 Metricbeat

服务拨测 heatbeat

数据采集与传输 logstash kibana展示

有没有开源工具指标 日志 调用链全部采集

image-20231121165150746

image-20231121165221084

RUM监控

skywalking:

image-20231121165727562

可观测案例:阿里云

image-20231121165812838

商业化套件

www.aliyun.com/product/lis…

image-20231121165936797