首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Vicla
掘友等级
快猫星云
为了无法度量的价值
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
26
文章 26
沸点 0
赞
26
返回
|
搜索文章
最新
热门
遇到监控告警风暴怎么办?
很多公司希望提升服务稳定性,而上线了各类监控系统,指标的、链路的、日志的,而且只是指标层面可能就会有多个监控系统,这么多监控系统、这么多监控目标,如果没有良好的治理,很快就会产生告警风暴的问题
SRE们,请不要小看了排班OnCall
先来看一下 Notion 的解释: 告警排班OnCall是指将系统的告警按照一定的轮换方式分配给运维人员值班处理。这种制度可以带来以下好处: 更快的响应时间:OnCall制度可以确保有专人负责处理系统
SLO新解,一种行之有效的故障处理方法
近年来 SLO(Service Level Objective)的概念日趋流行,国外不少公司效仿 Google 的最佳实践落地 SLO,很多服务商也支持了 SLO(如 Datadog)
云原生监控的十大特点和趋势
Open-Falcon 从写下第一行代码,应该是在 2012 年的冬天,开源于 2014 年。Open-Falcon 在设计之初,沉淀的主要是互联网公司在运维大规模物理机时代的优秀方法论
建立云原生组织的8个要素
让用户更开心,让业务更成功,为社会创造更多价值,用科技让生活更美好,是科技企业发展的核心目标。我们暂且把该目标简单的表示为 Business KPIs。 过去十年,随着云计算的发展,云原生技术架构逐步
服务稳定性保障的五大误解
误解一:服务可用性 听过很多技术分享,看过很多平台的承诺,上来都是讲我们的服务稳定性99.9xx%,但似乎都“忘记”了提供这个稳定性的具体算法和解读。如果没有明确的定义,这个数值其实毫无意义。
服务挂了,学费交了,掌握这6点就值了
办公区里此起彼伏的短信声、手机铃声,IM群里铺天盖地的消息,人人都在问,什么情况?服务挂了吗?有没有人在上线?。。这是在线服务挂了的日常一幕。 目前没有哪家企业敢承诺自己的服务肯定不会宕机,大如谷歌、
二十年里12个开源监控工具大对比
过去20年开源的或者商业的监控系统很多,具体可以参考维基百科的条目。一个完整的监控系统,往简单了讲,主要包括三个主要部分:数据采集、告警、数据图表展示。我们围绕这三个方面,对其中12款典型的开源工具做
Zabbix 和夜莺监控选型对比
Zabbix 是过去二十年里开源监控系统的代表作,有着广泛的用户基础,如果没有原生和微服务架构的流行,Zabbix 本可以连续代表下一个二十年。作为 Zabbix 忠实用户的你,或许正经历着传统架构往
个人成就
文章被点赞
55
文章被阅读
14,955
掘力值
397
关注了
1
关注者
17
收藏集
0
关注标签
3
加入于
2023-06-26