Cloudflare 全球宕机：官方公布事故原因，影响遍及全网11 月 18 日，全球范围内大批网站无法访问，Cloud

11 月 18 日，全球范围内大批网站无法访问，Cloudflare 出现近几年最严重的服务中断。
包括网站加速、DDoS 防护、Turnstile 验证、Zero Trust 访问等核心功能均受到影响，部分用户甚至无法登录 Cloudflare 控制台。Cloudflare 随后发布官方事故复盘，对外披露了这次宕机的技术原因。

🕒 事件时间线（UTC 时间）

11:05 — Cloudflare 对 ClickHouse 数据库进行权限调整。
11:28 — 配置文件异常开始下发，全球出现大规模 5xx 错误。
11:30–13:05 — 工程团队排查，多轮尝试限流和流量切换。
14:30 — 找到根因，停止下发异常配置，恢复正常版本。
17:06 — Cloudflare 宣布所有系统恢复正常。

这段时间内，许多网站出现间歇性“打不开—恢复—再挂”的情况，正是由于系统不断收到“坏配置文件”导致反复崩溃。

❗事故根因：一个配置文件，引爆整个核心代理

本次宕机的根因并非攻击，而是一次数据库权限变更意外触发了 Bug：

Cloudflare 的 Bot Management 模块会定期生成一份“特征配置文件”。
权限调整后，SQL 查询意外从多个库读到重复数据，特征项数量翻倍。
超过上限的特征数量触发了代理模块中的一个异常，导致核心进程 panic，全球范围内请求报错。
由于自动化流程不断生成新文件，坏配置被反复推送，导致宕机周期性复发。

一句话总结：
一次正常的权限更新 → 异常的配置文件 → 代理模块崩溃 → Cloudflare 全网抖动。

🌐 哪些服务受到了影响？

根据官方说明，这次中断影响范围非常广，包含但不限于：

网站加速 / CDN / WAF：大量 HTTP 5xx 报错
Turnstile 验证：验证框加载失败
Workers KV：存储服务依赖的代理进程挂掉
Zero Trust / Access：认证异常、新登录频繁失败
Dashboard 控制台：因登录链路受阻，许多用户无法进入

这也是为什么在事故期间，你会发现很多网站甚至连登录都做不了。

🔧 Cloudflare 给出的补救措施

官方在复盘中承诺将进行多项修正，包括：

对内部生成的配置文件增加安全校验
为关键系统增加更强的一键隔离能力（kill switch）
优化错误处理机制，避免异常诱发连锁崩溃
改进日志系统，防止错误日志进一步压垮服务
系统性审查代理组件的失败模式

Cloudflare 表示，这是自 2019 年以来最严重的一次事件，并向全球用户致歉。

📌 总结

本次 Cloudflare 宕机持续数小时，影响范围遍及全球互联网。事件虽已完全恢复，但暴露出大型云基础设施在自动化与依赖链路上的风险。对于业务依赖 Cloudflare 的企业来说，也提醒我们建立多层冗余和备用访问策略的重要性。

好消息是：Cloudflare 表示目前没有任何迹象表明与攻击相关
。