我写了一个 AI 运维工具,能自动生成事故复盘

0 阅读8分钟

我写了一个 AI 运维工具,能自动生成事故复盘

在很多公司里,生产事故其实并不可怕。
真正让人头疼的是 事故之后的事情

通常一个事故发生后的流程是:

  1. 系统报警
  2. 运维 / 开发排查日志
  3. 找到异常原因
  4. 写事故报告
  5. 做事故复盘

其中最痛苦的一件事往往是:

写事故复盘报告。

一份完整的事故复盘通常需要:

  • 整理大量日志
  • 梳理事故时间线
  • 分析根因
  • 评估影响范围
  • 写改进措施

很多团队写一份事故报告需要 1~2 小时

于是我做了一个工具:

AI 自动分析日志,并生成事故复盘报告。


一、真实生产环境中的日志问题

在生产环境里,我们经常看到这样的日志:

2026-03-08 11:22:40.577 ERROR [http-nio-10014-exec-3] GlobalExceptionHandler error message:

com.example.common.exception.BusinessException: BusinessException -> code : 300, desc : 该业务功能已绑定流程

如果只是几行日志还好。

但实际生产环境往往是:

  • 几千行日志
  • 多个服务
  • 多个线程
  • 不同时间点

人工分析日志通常需要:

  • 手动搜索 ERROR
  • 查看异常堆栈
  • 统计错误次数
  • 推断事故时间线

整个过程 效率非常低


二、AI 自动生成事故复盘

我做的这个工具可以:

  1. 自动解析异常日志
  2. 聚合相同错误
  3. 分析错误趋势
  4. 推断事故时间线
  5. 自动生成事故报告

例如系统会自动生成这样的报告:


🚨 事故分析报告

服务:order-service
发生时间:2026-03-08 11:25:59


执行摘要

项目内容
严重等级P3
用户影响
建议动作先观察

已确认根因

BusinessException code : 300 desc : 该业务功能已绑定流程


疑似根因

  • 未发现完整异常链
  • 日志未包含完整堆栈信息

处理建议

立即处理

  • 持续观察系统状态

短期优化

  • 增加业务异常日志记录
  • 为关键接口增加错误率监控

异常趋势

时间错误数
11:228

整个报告 几十秒自动生成


三、为什么做这个工具

很多团队已经有:

  • 日志系统
  • 监控系统
  • 告警系统

例如:

  • Prometheus
  • SkyWalking

但大多数系统缺少一个能力:

自动事故复盘。

当系统出现问题时,大家还是要:

  • 手动分析日志
  • 手动写报告

而 AI 在 文本分析 方面非常适合这个场景。


四、系统架构

整个系统架构比较简单:

日志 ↓ 日志分析引擎 ↓ AI 分析模块 ↓ 事故报告生成

核心能力包括:

  • 异常日志提取
  • 异常聚合分析
  • 错误趋势统计
  • 事故时间线生成
  • AI 根因分析

五、企业最关心的问题:日志安全

很多团队会问:

日志会不会被上传到外部 AI?

因此系统设计原则是:

日志默认不出企业内网。

系统支持三种 AI 模式。


1 本地 AI 模式

企业可以部署本地模型,例如:

  • Ollama
  • DeepSeek
  • Llama3

所有日志都在企业内部分析。


2 API 模式

如果企业允许,也可以使用外部模型,例如:

  • OpenAI
  • Anthropic

同时系统支持:

  • 日志脱敏
  • 敏感字段过滤

六、部署方式

系统支持 5分钟私有化部署

例如:

docker run incident-ai

然后配置 AI:

AI_PROVIDER=openai AI_KEY=xxxx

即可开始分析日志。


七、适用场景

这个工具适合:

运维 / SRE / 后端开发团队

常见场景:

  1. 生产事故分析
  2. 自动生成事故复盘
  3. 错误日志聚合
  4. 异常趋势分析

八、未来规划

接下来计划增加:

  • AI 根因分析
  • 多服务事故关联
  • 告警自动分析
  • AI 运维 Copilot

让系统能够:

自动理解生产事故。


九、写在最后

很多团队在事故发生后都会遇到一个问题:

事故复盘太耗时间。

如果 AI 可以自动分析日志并生成报告,
运维团队就可以把更多时间投入到:

  • 系统稳定性
  • 架构优化
  • 故障预防

这也是我做这个工具的初衷。

如果你也是:

  • 运维工程师
  • SRE
  • 后端开发

欢迎交流。

如果你愿意,我可以 再帮你优化一版“更容易火的版本”,会做三件升级:

1️⃣ 标题优化(技术社区更容易爆) 2️⃣ 增加真实事故案例截图结构 3️⃣ 加 GitHub / 产品引导(带用户)

很多技术产品 第一批用户其实就是靠一篇博客来的。我写了一个 AI 运维工具,能自动生成事故复盘

在很多公司里,生产事故其实并不可怕。
真正让人头疼的是 事故之后的事情

通常一个事故发生后的流程是:

  1. 系统报警
  2. 运维 / 开发排查日志
  3. 找到异常原因
  4. 写事故报告
  5. 做事故复盘

其中最痛苦的一件事往往是:

写事故复盘报告。

一份完整的事故复盘通常需要:

  • 整理大量日志
  • 梳理事故时间线
  • 分析根因
  • 评估影响范围
  • 写改进措施

很多团队写一份事故报告需要 1~2 小时

于是我做了一个工具:

AI 自动分析日志,并生成事故复盘报告。


一、真实生产环境中的日志问题

在生产环境里,我们经常看到这样的日志:

2026-03-08 11:22:40.577 ERROR [http-nio-10014-exec-3] GlobalExceptionHandler error message:

com.example.common.exception.BusinessException: BusinessException -> code : 300, desc : 该业务功能已绑定流程

如果只是几行日志还好。

但实际生产环境往往是:

  • 几千行日志
  • 多个服务
  • 多个线程
  • 不同时间点

人工分析日志通常需要:

  • 手动搜索 ERROR
  • 查看异常堆栈
  • 统计错误次数
  • 推断事故时间线

整个过程 效率非常低


二、AI 自动生成事故复盘

我做的这个工具可以:

  1. 自动解析异常日志
  2. 聚合相同错误
  3. 分析错误趋势
  4. 推断事故时间线
  5. 自动生成事故报告

例如系统会自动生成这样的报告:


🚨 事故分析报告

服务:order-service
发生时间:2026-03-08 11:25:59


执行摘要

项目内容
严重等级P3
用户影响
建议动作先观察

已确认根因

BusinessException code : 300 desc : 该业务功能已绑定流程


疑似根因

  • 未发现完整异常链
  • 日志未包含完整堆栈信息

处理建议

立即处理

  • 持续观察系统状态

短期优化

  • 增加业务异常日志记录
  • 为关键接口增加错误率监控

异常趋势

时间错误数
11:228

整个报告 几十秒自动生成


三、为什么做这个工具

很多团队已经有:

  • 日志系统
  • 监控系统
  • 告警系统

例如:

  • Prometheus
  • SkyWalking

但大多数系统缺少一个能力:

自动事故复盘。

当系统出现问题时,大家还是要:

  • 手动分析日志
  • 手动写报告

而 AI 在 文本分析 方面非常适合这个场景。


四、系统架构

整个系统架构比较简单:

日志 ↓ 日志分析引擎 ↓ AI 分析模块 ↓ 事故报告生成

核心能力包括:

  • 异常日志提取
  • 异常聚合分析
  • 错误趋势统计
  • 事故时间线生成
  • AI 根因分析

五、企业最关心的问题:日志安全

很多团队会问:

日志会不会被上传到外部 AI?

因此系统设计原则是:

日志默认不出企业内网。

系统支持三种 AI 模式。


1 本地 AI 模式

企业可以部署本地模型,例如:

  • Ollama
  • DeepSeek
  • Llama3

所有日志都在企业内部分析。


2 API 模式

如果企业允许,也可以使用外部模型,例如:

  • OpenAI
  • Anthropic

同时系统支持:

  • 日志脱敏
  • 敏感字段过滤

六、部署方式

系统支持 5分钟私有化部署

例如:

docker run incident-ai

然后配置 AI:

AI_PROVIDER=openai AI_KEY=xxxx

即可开始分析日志。


七、适用场景

这个工具适合:

运维 / SRE / 后端开发团队

常见场景:

  1. 生产事故分析
  2. 自动生成事故复盘
  3. 错误日志聚合
  4. 异常趋势分析

八、未来规划

接下来计划增加:

  • AI 根因分析
  • 多服务事故关联
  • 告警自动分析
  • AI 运维 Copilot

让系统能够:

自动理解生产事故。


九、写在最后

很多团队在事故发生后都会遇到一个问题:

事故复盘太耗时间。

如果 AI 可以自动分析日志并生成报告,
运维团队就可以把更多时间投入到:

  • 系统稳定性
  • 架构优化
  • 故障预防

这也是我做这个工具的初衷。

如果你也是:

  • 运维工程师
  • SRE
  • 后端开发

欢迎交流。