首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
SRE
订阅
卡布奇诺
更多收藏集
微信扫码分享
微信
新浪微博
QQ
7篇文章 · 0订阅
最新字节跳动运维云原生面经分享
最新字节跳动的运维工程师岗位的云原生方向的面经,涉及Prometheus、Kubernetes、CI/CD、网络代理、MySQL主从、Redis哨兵、系统调优及基础命令行工具等知识点。
SLO警报策略(译文)
这篇文章将介绍如何把设定的SLO应用到工程实践的警报中,从而能应对重大的事件。我们相信,设定好平台可靠性的SLO可以为on-call的工程师提供可靠的
字节跳动基础架构SRE-Copilot获得2023 CCF国际AIOps挑战赛冠军
基础架构-SRE团队提出的基于LLM的多场景智能运维框架SRE-Copilot,支持Multi-Agent协作与动态编排,具备计划、记忆、反思、推理与ReAct等能力。
云原生背景下故障演练体系建设的思考与实践—云原生混沌工程系列之指南篇
简介:生产环境的突袭演练是我们迈出的艰难但有力的一步,锻炼了研发运维人员的应急响应能力,在真实用户场景下锤炼系统,推进了产品的轮班制度,提升了云原生底座的稳定性和竞争力。 作者:智妍(郑妍)、浣碧(何
货拉拉故障演练体系的构建与实践
通过构建一个故障演练体系,来提升系统架构的容错能力和韧性,也可以站在位置故障视角来验证系统稳定性,验证整个故障定位能力和恢复体系。同时可以以战养兵,提升故障应急效率。
工作十年,在腾讯沉淀的高可用系统架构设计经验
👉腾小云导读 在系统的开发过程中,很多开发者都为了实现系统的高可用性而发愁。本文从研发规范层面、应用服务层面、存储层面、产品层面、运维部署层面、异常应急层面这六大层面去剖析一个高可用系统的架构设计需要
美团MySQL数据库巡检系统的设计与应用
巡检工作是保障系统平稳有效运行必不可少的一个环节,目的是能及时发现系统中存在的隐患。我们生活中也随处可见各种巡检,比如电力巡检、消防检查等,正是这些巡检工作,我们才能在稳定的环境下进行工作、生活。巡检对于数据库或者其他IT系统来说也同样至关重要,特别是在降低风险、提高服务稳定性…