11 月 18 日,全球范围内大批网站无法访问,Cloudflare 出现近几年最严重的服务中断。
包括网站加速、DDoS 防护、Turnstile 验证、Zero Trust 访问等核心功能均受到影响,部分用户甚至无法登录 Cloudflare 控制台。Cloudflare 随后发布官方事故复盘,对外披露了这次宕机的技术原因。
🕒 事件时间线(UTC 时间)
-
11:05 — Cloudflare 对 ClickHouse 数据库进行权限调整。
-
11:28 — 配置文件异常开始下发,全球出现大规模 5xx 错误。
-
11:30–13:05 — 工程团队排查,多轮尝试限流和流量切换。
-
14:30 — 找到根因,停止下发异常配置,恢复正常版本。
-
17:06 — Cloudflare 宣布所有系统恢复正常。
这段时间内,许多网站出现间歇性“打不开—恢复—再挂”的情况,正是由于系统不断收到“坏配置文件”导致反复崩溃。
❗事故根因:一个配置文件,引爆整个核心代理
本次宕机的根因并非攻击,而是一次数据库权限变更意外触发了 Bug:
-
Cloudflare 的 Bot Management 模块会定期生成一份“特征配置文件”。
-
权限调整后,SQL 查询意外从多个库读到重复数据,特征项数量翻倍。
-
超过上限的特征数量触发了代理模块中的一个异常,导致核心进程 panic,全球范围内请求报错。
-
由于自动化流程不断生成新文件,坏配置被反复推送,导致宕机周期性复发。
一句话总结:
一次正常的权限更新 → 异常的配置文件 → 代理模块崩溃 → Cloudflare 全网抖动。
🌐 哪些服务受到了影响?
根据官方说明,这次中断影响范围非常广,包含但不限于:
-
网站加速 / CDN / WAF:大量 HTTP 5xx 报错
-
Turnstile 验证:验证框加载失败
-
Workers KV:存储服务依赖的代理进程挂掉
-
Zero Trust / Access:认证异常、新登录频繁失败
-
Dashboard 控制台:因登录链路受阻,许多用户无法进入
这也是为什么在事故期间,你会发现很多网站甚至连登录都做不了。
🔧 Cloudflare 给出的补救措施
官方在复盘中承诺将进行多项修正,包括:
-
对内部生成的配置文件增加安全校验
-
为关键系统增加更强的一键隔离能力(kill switch)
-
优化错误处理机制,避免异常诱发连锁崩溃
-
改进日志系统,防止错误日志进一步压垮服务
-
系统性审查代理组件的失败模式
Cloudflare 表示,这是自 2019 年以来最严重的一次事件,并向全球用户致歉。
📌 总结
本次 Cloudflare 宕机持续数小时,影响范围遍及全球互联网。事件虽已完全恢复,但暴露出大型云基础设施在自动化与依赖链路上的风险。对于业务依赖 Cloudflare 的企业来说,也提醒我们建立多层冗余和备用访问策略的重要性。
好消息是:Cloudflare 表示目前没有任何迹象表明与攻击相关
。