首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
用户3765521394993
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
8
文章 7
沸点 1
赞
8
返回
|
搜索文章
最新
热门
Loki AI 事故分析引擎正式开放一键部署,帮 SRE 快速完成故障复盘(2026)
已上架阿里云计算巢!Loki AI 事故分析引擎正式开放一键部署,帮 SRE 快速完成故障复盘 作者:Luke 日期:2026年4月 经过一段时间的打磨,我的开源项目 Incident AI 事故分析
说实话,大部分事故复盘,都是在“浪费时间”
说句可能不太好听的: 👉 大部分团队的事故复盘,其实是在浪费时间 这周看了几份复盘,有几个很典型的问题: 1️⃣ 基本都是“现象描述” 接口报错 服务异常 但真正关键的: 👉 为什么发生?根因是什么?
一次线上告警,我们把事故排查从 30 分钟降到了 2 分钟
你们线上事故排查一般要多久? 告警 → 打开 Grafana → 查 Loki 日志 → 找异常 → 整理问题 → 写事故记录
凌晨 3 点的报警:我是怎么 5 秒定位根因的
凌晨 3 点的报警:我是怎么 5 秒定位根因的 如果你做过运维或者后端开发,大概率经历过这种场景。 凌晨 03:12。 手机突然震动。 你从睡梦中醒来,第一反应通常是: 于是你打开电脑,开始排查。 一
AI 能不能替代运维翻日志?我做了一个实验
AI 能不能替代运维翻日志?我做了一个实验 最近 AI 很火。 很多人开始讨论一个问题: 我觉得这个问题有点极端。 但有一个更现实的问题: 于是我做了一个小实验。 一、实验背景 假设生产环境出现报警:
一次线上事故排查:200 行 ERROR 日志定位根因
如果你做过运维或者后端开发,一定遇到过这种情况。 线上报警: 第一反应通常是: 于是开始排查日志。 一、事故背景 某天生产环境出现报警: 日志系统里很快出现大量异常: 接下来几秒钟: 日志数量: 此时
运维最痛苦的事:凌晨翻日志
如果你做过运维或者后端开发,大概率经历过这样的场景。 凌晨 02:37。 手机突然响了。 睡意瞬间没了。 你打开电脑,连上服务器。 接下来要做的第一件事就是: 一、凌晨排查事故的真实流程 很多团队的事
我写了一个 AI 运维工具,能自动生成事故复盘
我写了一个 AI 运维工具,能自动生成事故复盘 在很多公司里,生产事故其实并不可怕。 真正让人头疼的是 事故之后的事情。 通常一个事故发生后的流程是: 系统报警 运维 / 开发排查日志 找到异常原因
个人成就
文章被点赞
7
文章被阅读
168
掘力值
68
关注了
1
关注者
0
收藏集
0
关注标签
0
加入于
2021-12-13