DevOps
行运维知识体系、运维管理体系和运维建设体系的学习,掌握管理和实践的理论知识。
Unit1:运维建设体系 运维知识体系介绍
全链路自动化运维体系
运维标准化分层实施
运维流程化和场景化
Unit2:运维管理体系
运维的道法术器
稳定性工程
技术运营标准
GitOps和FinOps
Unit3:发布工程
持续交付和持续部署
蓝绿部署和灰度发布
自动化部署设计与实施
自动化部署中的配置管理
Unit 4 :可观测性工程
监控知识体系
指标监控实践
RUM和APM实践
日志采集实践
1 前置 OSI网络七层模型
1 物理层: 网线 光纤
2 数据链路层(mac PPP): ARP缓存四小时(改了防火墙问题 mac地址改了 清缓存好使)
3 网络层(IP):
4 传输层: TCP UDP
TCP time wait recycle reuse
tcp_tw_reuse:
zhuanlan.zhihu.com/p/559460155
1 TCP 11种状态 2 linux 内核 3 三次握手 四次挥手
5 会话层: TCP全双工 半双工
6 表示层:
7 应用层(HTTP FTP Telnet DNS): 框架
2 ==前置 linux命令==
回去查查
3 .运维知识体系
1 概述
接入层: 负载均衡( 四层是转发 七层是代理)
反向代理(nginx) CDN分发
基础服务层
2 常见问题
🚦1. 更换防火墙(mac地址可能变了)-公网ip不通- 回滚
🚦2. 主机访问web服务器==不通==-OSI 网络不通: 1ping 若通-2 telnet
- 先把模型简化,先在本地测 从上往下测 从应用层
-
再从客户端测 从下往上找
-
抓包
内部dns很重要 Facebook自动化工具也依赖dns
🚦3. 想知道每一个server的流量
- 看日志
- 写监控工具
- 每个server绑定ip地址 抓到虚拟网卡和server一一对应
天眼 天盾
🚦4. 运维团队如何让agent不影响业务 (出bug把CPU跑满了):
-
cgroup 给进程做资源限制,配不好影响docker (complex)
-
task set命令 把某一个进程绑定到某一个核上 天盾进程出问题最多把这个核跑满 (easy)
操作层: CPU内存 虚拟化使用大页内存 k8s调度也支撑
3 领域选择
🎄广度: leader 🎄深度: 核心竞争力 问不倒 核心代码 短时间学不会
4. 分层标准化
-
管理标准化: 如果标准, 不需要交接
-
硬件管理化:
-
OS标准化: agent管理, 标准化目录设置
💥接手一套乱的部署-不要改- 重新部署
🚦 语雀问题:
应用运维 :语雀团队(考虑阿里云 云化系统提建议 打补丁)
基础设施运维: 阿里云
-
组件标准化:数据库和中间件
-
ITSM的PPT
ITSM 工单
ITOM 天眼
50个微服务 数据库就一个 50个微服务一重启 微服务就die 一个人写了好几个微服务
管理求最优解 不是最正确解
5. 案例
1 自动化装机工具¥-linux windows PE -游戏 运营商 银行
2 工具化和自动化的区别
自动化是运维工具组合起来
运维Paas平台- like天眼架构
设计理念参考:
🚦应用状态健康度评分100: 应用主机依赖怎么打分; 主机 中间件 数据库 应用关联; 主机关联物理机 ;人工复核+机器 打分 有人工靠经验定义的分数
每个状态权重不同: 告警权重高 减分制 自动化备份平台 应用也是运维对象
🚦CMDB(配置管理)什么平台一起建设:==监控平台== 巡检指标 监控指标