devOps与运营最佳实践

224 阅读3分钟

DevOps

行运维知识体系、运维管理体系和运维建设体系的学习,掌握管理和实践的理论知识。

Unit1:运维建设体系 运维知识体系介绍

全链路自动化运维体系

运维标准化分层实施

运维流程化和场景化

Unit2:运维管理体系

运维的道法术器

稳定性工程

技术运营标准

GitOps和FinOps

Unit3:发布工程

持续交付和持续部署

蓝绿部署和灰度发布

自动化部署设计与实施

自动化部署中的配置管理

Unit 4 :可观测性工程

监控知识体系

指标监控实践

RUM和APM实践

日志采集实践

1 前置 OSI网络七层模型

1 物理层: 网线 光纤

2 数据链路层(mac PPP): ARP缓存四小时(改了防火墙问题 mac地址改了 清缓存好使)

3 网络层(IP):

4 传输层: TCP UDP

TCP time wait recycle reuse

tcp_tw_reuse:

zhuanlan.zhihu.com/p/559460155

1 TCP 11种状态 2 linux 内核 3 三次握手 四次挥手

5 会话层: TCP全双工 半双工

6 表示层:

7 应用层(HTTP FTP Telnet DNS): 框架

2 ==前置 linux命令==

回去查查

3 .运维知识体系

1 概述

接入层: 负载均衡( 四层是转发 七层是代理)

​ 反向代理(nginx) CDN分发

基础服务层

2 常见问题

🚦1. 更换防火墙(mac地址可能变了)-公网ip不通- 回滚

🚦2. 主机访问web服务器==不通==-OSI 网络不通: 1ping 若通-2 telnet

  1. 先把模型简化,先在本地测 从上往下测 从应用层
  1. 再从客户端测 从下往上找

  2. 抓包

内部dns很重要 Facebook自动化工具也依赖dns

🚦3. 想知道每一个server的流量

  1. 看日志
  2. 写监控工具
  3. 每个server绑定ip地址 抓到虚拟网卡和server一一对应

天眼 天盾

🚦4. 运维团队如何让agent不影响业务 (出bug把CPU跑满了):

  1. cgroup 给进程做资源限制,配不好影响docker (complex)

  2. task set命令 把某一个进程绑定到某一个核上 天盾进程出问题最多把这个核跑满 (easy)

操作层: CPU内存 虚拟化使用大页内存 k8s调度也支撑

image-20231121112405293.png

3 领域选择

image-20231121112419846.png

image-20231121112419846.png

image-20231121113206067.png

image-20231121113309768.png

🎄广度: leader 🎄深度: 核心竞争力 问不倒 核心代码 短时间学不会

4. 分层标准化

  1. 管理标准化: 如果标准, 不需要交接

  2. 硬件管理化:

  3. OS标准化: agent管理, 标准化目录设置

💥接手一套乱的部署-不要改- 重新部署

🚦 语雀问题:

应用运维 :语雀团队(考虑阿里云 云化系统提建议 打补丁)

基础设施运维: 阿里云

  1. 组件标准化:数据库和中间件

  2. ITSM的PPT

ITSM 工单

ITOM 天眼

50个微服务 数据库就一个 50个微服务一重启 微服务就die 一个人写了好几个微服务

管理求最优解 不是最正确解

5. 案例

image-20231121114548753.png

image-20231121114558300.png 1 自动化装机工具¥-linux windows PE -游戏 运营商 银行

image-20231121115934687.png 2 工具化和自动化的区别 自动化是运维工具组合起来

运维Paas平台- like天眼架构

设计理念参考:

🚦应用状态健康度评分100: 应用主机依赖怎么打分; 主机 中间件 数据库 应用关联; 主机关联物理机 ;人工复核+机器 打分 有人工靠经验定义的分数

每个状态权重不同: 告警权重高 减分制 自动化备份平台 应用也是运维对象

🚦CMDB(配置管理)什么平台一起建设:==监控平台== 巡检指标 监控指标