✨技术运营-SRE 最佳实践
一 运维建设体系
二 运维管理体系
1 SRE是devops最佳实践
FinPos最佳实践 finance+devOps
gitOps最佳实践 外企多
1 finPos
容量管理:
业务流量管理
服务流量管理
1 容量治理目标:满足扩容 缩容 协助成本控制
2 容量管理:
事前容量规划: 上线之前需要多少资源
事中容量监控: 实时获取
事后容量调整:容量应急预案应对突发流量
3 容量治理: 扩容 降级 限流
4 容量优化
应用纬度优化(新上线和准备下线)
架构纬度优化(按SET部署 熔断升级 数据归档 性能优化)
资源纬度优化: 主机降配 混合部署 贷款优化 CDN消峰
运营商收费按峰值取99%
系统功能架构
2 gitOps最佳实践 外企多
AsOps 中的code
gitOps 不是git实践 是将应用系统的基础架构和应用程序放到git仓库
gitOps pipeline 打包docker镜像 自动修改配置
自动化测试需要非常牛 有点理想化
应用交付-流水线即代码 ArgoCD 八爪鱼
查看日志不用vm 可以用ls vm打开大文件会卡
右键不能粘贴
改日志掩盖错误 有堡垒机
所有的脚本必须支持参数
3 google SRE: 软件工程方式做运维
book
第一章 第六章必看 这是一本书
50%时间用于工程工作 写工具
减少琐事
不能追求极致
度量服务风险(宕)
两地三中心一般不能宕 基于时间的可用性 合计可用性
SLI 指标
SLO 目标
SLA 协议
超过SLO怎么办: chubby服务计划内停机事件
错误预算
1-SLO 一个月为单位 错误预算用完了 服务停止变更 直到下一个预算周期
三 持续部署CD
资源社区: www.infoq.cn/
CI/CD/CO 持续运营
技术运营的角度开发 看事情的视角不一样 很多公司没有技术运营
自动化部署-- 流水线
容器化部署
🚦 Q:在容器里面的进程 在宿主机能看到吗 docker?
A: 能看到 容器时隔离 并不是虚拟
不可变基础设施:容器
用替换代替 容器代码打包到docker镜像
k8s
数据库工单系统
四 监控
技术运营体系
监控建设-天眼
可观测 openTracing OpenTelemetry架构
物理设备 IPMI 协议 SNMP协议
分布式网络监控 拨测 Smokeping
主机监控工具集
🚦常用命令集
1 if top 主机和哪个主机正在通信
2 io top 哪些进程在读写
web站点监控
api性能监控-api拨测 服务拨测
数据库和中间件监控
运维监控工具
nagios和prometheus区别:
zabbix优势
beats 数据采集工具集 腾讯 基于这个写的
指标采集 Metricbeat
服务拨测 heatbeat
数据采集与传输 logstash kibana展示
有没有开源工具指标 日志 调用链全部采集
RUM监控
skywalking:
可观测案例:阿里云
商业化套件