首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
自动化运维
用户3765521394993
创建于2026-03-08
订阅专栏
自动化运维工具
暂无订阅
共6篇文章
创建于2026-03-08
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Loki AI 事故分析引擎正式开放一键部署,帮 SRE 快速完成故障复盘(2026)
已上架阿里云计算巢!Loki AI 事故分析引擎正式开放一键部署,帮 SRE 快速完成故障复盘 作者:Luke 日期:2026年4月 经过一段时间的打磨,我的开源项目 Incident AI 事故分析
说实话,大部分事故复盘,都是在“浪费时间”
说句可能不太好听的: 👉 大部分团队的事故复盘,其实是在浪费时间 这周看了几份复盘,有几个很典型的问题: 1️⃣ 基本都是“现象描述” 接口报错 服务异常 但真正关键的: 👉 为什么发生?根因是什么?
一次线上告警,我们把事故排查从 30 分钟降到了 2 分钟
你们线上事故排查一般要多久? 告警 → 打开 Grafana → 查 Loki 日志 → 找异常 → 整理问题 → 写事故记录
凌晨 3 点的报警:我是怎么 5 秒定位根因的
凌晨 3 点的报警:我是怎么 5 秒定位根因的 如果你做过运维或者后端开发,大概率经历过这种场景。 凌晨 03:12。 手机突然震动。 你从睡梦中醒来,第一反应通常是: 于是你打开电脑,开始排查。 一
AI 能不能替代运维翻日志?我做了一个实验
AI 能不能替代运维翻日志?我做了一个实验 最近 AI 很火。 很多人开始讨论一个问题: 我觉得这个问题有点极端。 但有一个更现实的问题: 于是我做了一个小实验。 一、实验背景 假设生产环境出现报警:
一次线上事故排查:200 行 ERROR 日志定位根因
如果你做过运维或者后端开发,一定遇到过这种情况。 线上报警: 第一反应通常是: 于是开始排查日志。 一、事故背景 某天生产环境出现报警: 日志系统里很快出现大量异常: 接下来几秒钟: 日志数量: 此时