首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
正能量打字员
Vicla
创建于2023-07-13
订阅专栏
专注于可观测性和云计算,为了无法度量的价值。
等 1 人订阅
共8篇文章
创建于2023-07-13
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大模型技术名词和概念太多了,一手学习笔记
本文作者是 Zenlayer 高级网络工程师钱工在第二届 CCF 夜莺开发者创新论坛上所做的分享的补充和展开。内容包括 AI 方向的一些实践效果、基础知识、选型思考等。
故障快速恢复的方法和工具:阿里巴巴 1-5-10 实践
阿里巴巴提出的稳定性保障 "1-5-10" 目标是针对提升系统可靠性的一个重要牵引指标,用于缩短故障恢复时长(MTTR),降低故障影响。
Google SRE 的 on-call 方法和工具
Google SRE 实践中,有一个广为人知的理念:减少琐事,用软件工程的方式解决运维问题。Google SRE 设定了一个重要的、公开的目标:保持每个SRE的工作时间中琐事比例低于50%。
坚持为「专业性」买单,就是最大的降本增效!
临近年底,各大互联网公司和云基础设施厂商,接连出了一些大故障,引发了众多的讨论: 技术保障这个话题老套极了,但不幸的是,截止当前,技术保障仍然是一个人力密集 + 知识密集 + 资产密集同时存在的领域。
可观测性与传统监控的区别和联系
什么是可观测性,从传统监控到可观测性,Gap 到底有多大?构建和完善可观测性体系,有哪些最佳实践,应该从哪些维度入手和进阶
稳定性保障8个锦囊,建议收藏!
稳定性保障,是一切技术工作的出发点和落脚点,也是 IT 工作最核心的价值体现,当然也是技术人员最容易“翻车”的阴沟。8个稳定性保障锦囊,分享给各位技术人员择机使用。
面向故障处理的可观测性体系建设方法,全在这个长文中了
笔者从 12 年开始入行,从事 DevOps 研发工作,做过部署系统、监控系统、可观测性相关产品,也做过 SRE 一线和管理工作,对于可观测性的理解和实践,有一些小小的见解,利用本文和大家做一个探讨
建设OnCall值班平台的方法,全在这个小册子里了
市面上有众多监控系统,刨去商业软件不说,开源的就有Nagios、Zabbix、Open-Falcon、Nightingale、Grafana、Prometheus、Elastalert 等,还有云厂商