首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Vicla
掘友等级
快猫星云
为了无法度量的价值
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
26
文章 26
沸点 0
赞
26
返回
|
搜索文章
最新
热门
大模型技术名词和概念太多了,一手学习笔记
本文作者是 Zenlayer 高级网络工程师钱工在第二届 CCF 夜莺开发者创新论坛上所做的分享的补充和展开。内容包括 AI 方向的一些实践效果、基础知识、选型思考等。
故障快速恢复的方法和工具:阿里巴巴 1-5-10 实践
阿里巴巴提出的稳定性保障 "1-5-10" 目标是针对提升系统可靠性的一个重要牵引指标,用于缩短故障恢复时长(MTTR),降低故障影响。
Google SRE 的 on-call 方法和工具
Google SRE 实践中,有一个广为人知的理念:减少琐事,用软件工程的方式解决运维问题。Google SRE 设定了一个重要的、公开的目标:保持每个SRE的工作时间中琐事比例低于50%。
坚持为「专业性」买单,就是最大的降本增效!
临近年底,各大互联网公司和云基础设施厂商,接连出了一些大故障,引发了众多的讨论: 技术保障这个话题老套极了,但不幸的是,截止当前,技术保障仍然是一个人力密集 + 知识密集 + 资产密集同时存在的领域。
可观测性与传统监控的区别和联系
什么是可观测性,从传统监控到可观测性,Gap 到底有多大?构建和完善可观测性体系,有哪些最佳实践,应该从哪些维度入手和进阶
稳定性保障8个锦囊,建议收藏!
稳定性保障,是一切技术工作的出发点和落脚点,也是 IT 工作最核心的价值体现,当然也是技术人员最容易“翻车”的阴沟。8个稳定性保障锦囊,分享给各位技术人员择机使用。
面向故障处理的可观测性体系建设方法,全在这个长文中了
笔者从 12 年开始入行,从事 DevOps 研发工作,做过部署系统、监控系统、可观测性相关产品,也做过 SRE 一线和管理工作,对于可观测性的理解和实践,有一些小小的见解,利用本文和大家做一个探讨
建设OnCall值班平台的方法,全在这个小册子里了
市面上有众多监控系统,刨去商业软件不说,开源的就有Nagios、Zabbix、Open-Falcon、Nightingale、Grafana、Prometheus、Elastalert 等,还有云厂商
Kubernetes监控手册11-针对部署到Pod里的应用做性能监控
写在前面 前面系列的文章我们花费了较大篇幅,介绍了 Kubernetes 的各个组件的监控方法。从整个体系来看,Kubernetes 体系的监控还应该包含 Pod 里的应用的监控。 App 监控概述
Kubernetes监控手册10-使用 kube-state-metrics 监控 Kubernetes 对象
写在前面 前面的系列文章我们花费了大量篇幅介绍了 Kubernetes 各个组件的监控指标,Node 节点上的 Kube-Proxy、Kubelet,Master 节点的 APIServer、
下一页
个人成就
文章被点赞
55
文章被阅读
12,790
掘力值
393
关注了
1
关注者
17
收藏集
0
关注标签
3
加入于
2023-06-26