失败不丢人,隐瞒才丢人:Cloudflare 的危机公关启示录

3 阅读5分钟

失败不丢人,隐瞒才丢人:Cloudflare 的危机公关启示录

说实话,一看到 Cloudflare 这篇 《Code Orange: Fail Small is complete》博客,我第一反应是🤔——这玩意儿是搞技术透明度还是搞危机公关?看完之后,我服了。这两者本来就是一体两面。今天就来聊聊,Cloudflare 是怎么通过“主动暴露”来赢得信任的,以及我们这帮搞运维、搞云服务的,能从中学点啥。

顺便提一嘴,我博客(ewhisper.cn)之前聊过 SRE 的故障复盘文化,这次 Cloudflare 的案例,刚好可以拿来当个标杆。

从“遮遮掩掩”到“主动暴露”,到底哪个更香?

传统公关遇到故障,第一反应是啥?——遮遮掩掩,欲盖弥彰。通常是“部分服务出现异常”、“技术团队正在紧急修复”、“给您带来的不便深表歉意”。然后呢?然后就没有然后了。用户一脸懵逼:到底出了啥问题?什么时候能修好?还会不会再来?信任感直接裂开。

但 Cloudflare 不一样。他们的 “Code Orange: Fail Small” 项目,核心哲学很简单:

主动发现并修复小范围故障,避免演变成大规模事件;项目完成后,公开发布完整报告,把技术细节、改进措施、甚至失败教训都摊开给用户看。

这招有多狠?简直就是“自爆式”公关,但效果出奇的好——不隐瞒,不修饰,反而巩固了信任。

拆解三步棋:透明、快速、持续

Cloudflare 这篇博客看似技术报告,实则是一份教科书级的危机公关操作指南。我给它总结了三个支柱,咱一个个看:

1. 透明沟通:承认不足,是赢回信任的第一步

Cloudflare 在报告中直接列出了之前网络韧性方面的不足,比如某些区域的容灾能力不够、某些组件的故障隔离机制不完善。他们没有回避问题,而是坦诚承认:

“是的,我们之前做得不够好,现在我们打算改。”

📝Notes: 这跟我们日常搞故障复盘一样,不要试图甩锅,不要试图“控评”。你越是欲盖弥彰,用户越是觉得你有问题。学会诚恳说 “对不起”,比什么都强。

2. 快速响应:不是“事后诸葛亮”,而是“事前诸葛亮”

“Code Orange” 的核心不是事后补救,而是主动出击。Cloudflare 的工程团队花了两个多季度的时间,专门用来识别和修复系统中潜在的“小故障”——也就是那些单个节点算力不足、配置错误、路由震荡等可以在早期发现并修复的问题。

这招叫 “Fail Small”:与其等着问题积累成大规模宕机,不如主动制造小规模故障,然后快速修复。跟 Kubernetes 里的“混沌工程”有异曲同工之妙。

3. 持续改进:公开的承诺,倒逼团队执行力

Cloudflare 在报告中不仅列出了改进措施,还给出了承诺:“我们将持续监控这些改进,并定期发布透明报告。” 这就相当于把丑话说在前头:以后出了事,你有权来找我。

这种“公开承诺”的机制,倒逼团队必须把改进落到实处。很多公司搞复盘,复盘报告写得天花乱坠,该出的事故一个没少。但 Cloudflare 这种公开承诺,就像给自己上了个“紧箍咒” —— 你不改,用户就能指着报告骂你。

对比一下:传统“控评” vs Cloudflare 的“主动暴露”

维度传统公关Cloudflare 的主动暴露
态度遮遮掩掩、装聋作哑坦诚直率、主动公布
时机事后补救,通常滞后事前预防+事中公开+事后总结
用户感知“这公司不靠谱,隐瞒问题”“这公司诚实可靠,值得信赖”
长期效果信任感持续下降,用户流失信任感巩固,用户忠诚度提升
案例大部分互联网公司的宕机红头文件Cloudflare 的 “Code Orange” 报告

结论很明显:在信息透明度越来越高的今天,“控评”这种 2010 年的老套路已经行不通了。Cloudflare 这种“主动暴露”的策略,反而能建立更深的信任。

对我们意味着什么?

说实话,咱搞运维的,虽然不直接面对 C 端用户,但面对的是业务方、产品经理、老板们——这群人也是“用户”。他们的信任也一样需要经营。

那么,我们可以怎么做?

  1. 建立“运维透明报告”机制:每个季度 or 每个月,给业务方发一份“运维健康报告”(Metrics-Based),里面包括:

    • 关键服务的 SLO/SLI 达标率
    • 近期故障的复盘总结(亮点、不足、改进措施)
    • 下一阶段的可靠性改进计划
  2. 推广“故障复盘文化”:不要怕暴露问题。复盘不是追责,而是找系统性的根因。学着像 Cloudflare 一样,把复盘报告公开(至少对业务方公开),让所有人知道:我们看到了问题,我们正在改。

  3. 建立与业务方的公开沟通渠道:比如一个专门的“运维月报”公众号 / 内部知识库专栏,或是定期开一个“运维答谢会”。主动告诉他们,我们在做什么、遇到了什么困难、准备怎么解决。

说实话,大多数团队在做的是“防御式运维”——出事才救火,救完火就当没发生过。 这种模式迟早会遭遇“信任崩盘”。而 Cloudflare 的做法,其实是在做“防御式公关”——用透明换信任,用公开换信誉。

写在最后

“Transparency is the new objectivity. (透明度是新的客观性。) —— 戴维·温伯格”

技术迭代如此,信任重建也是如此。 失败不可怕,可怕的是失败了还嘴硬,还遮遮掩掩。 Cloudflare 用 “Code Orange” 告诉我们:失败是件很酷的事(如果你从中学会了东西的话)。

祝你也能像 Cloudflare 一样,学会“Fail Small”,赢得“Big Trust”。

与君共勉。

以上。


📚️参考文档