Cloudflare大宕機背后：為何把所有雞蛋都放在一個籃子里？

2025-11-19 11:12

周二，Cloudflare(NET.N)成為過去一個月內又一家發生大規模崩潰的網絡基礎設施巨頭，連續數小時讓包括X、ChatGPT、Spotify、Canva，甚至用於追蹤故障的DownDetector在內的整站全部顯示錯誤信息。

這是近期一連串服務中斷事件之一，網絡性能監測平臺Catchpoint的首席執行官兼聯合創始人梅赫迪·達烏迪（Mehdi Daoudi）表示，這應該成為企業的警鍾。

達烏迪説，所有人都把雞蛋放在同一個籃子里，一旦出問題就感到驚訝。這是公司自身的責任，要確保具備冗余和彈性。

此次故障發生前，微軟Azure和亞馬遜AWS在不到一周的時間里先后出問題，導致依賴這些大型服務商維持網站運行的互聯網大面積癱瘓。

Cloudflare同樣支撐着互聯網中相當重要的部分，它通過內容分發網絡保障網站在線，同時提供多種服務，包括DDoS攻擊防護和DNS。去年該公司表示，大約20% 的網絡流量經由Cloudflare運行，它還為財富500強中35% 的企業提供服務，除此之外還有「數百萬」其他客户。

Cloudflare的高速性能和安全記錄讓它成為全球網站的熱門選擇，但這次故障再次凸顯了網絡基礎設施行業的高度集中。

在AWS故障導致安全通訊應用Signal停止服務后，該公司總裁梅雷迪思·惠特克（Meredith Whittaker）表示，公司別無選擇，只能依賴大型雲服務提供商來運行。她寫道，實際上整個技術棧幾乎被三到四家企業所掌控。即使是微小偏差也可能帶來巨大的影響。

最近連續發生的故障仍然明確地表明，企業必須制定備份方案。達烏迪在接受採訪時表示，故障是必然存在的，而且只會越來越頻繁，影響範圍也只會越來越大，問題是你準備怎麼應對？

雖然微軟和AWS將各自的故障歸因於與DNS相關的問題，DNS是將網站域名轉換為IP地址的系統，但Cloudflare將此次的中斷追溯到一個配置文件。

Cloudflare發言人傑基·達頓（Jackie Dutton）則表示，周二故障的根源在於一個用於管理威脅流量的自動生成配置文件，該文件超出了預期的條目大小，最終觸發了處理Cloudflare多項服務流量的軟件系統崩潰。

這種文件問題竟然可以讓互聯網大片區域癱瘓，看似荒謬，但對於像Cloudflare這樣的大公司而言，卻完全可能發生。

SANS研究院人工智能與研究主管羅布·李（Rob Lee）表示，運營Cloudflare這種規模的基礎設施時，哪怕是極其輕微的偏差也會產生巨大后果。這些平臺爲了速度而構建，所以任何延迟或中斷決策的因素都可能迅速級聯。在高性能環境下，哪怕是毫秒級的延迟，也可能演變為完全的流量阻斷。

他還表示，Cloudflare所描述的這種配置文件，決定了路由安全策略、負載均衡決策以及流量如何在全球範圍分配。如果文件突然變大，就可能觸發解析變慢、內存問題、CPU爭用，或是在依賴它的系統中出現邏輯錯誤。

AWS同樣將最近一次大範圍中斷歸咎於「自動化故障」，這是這類錯誤迟早會再次發生。達烏迪説，每次Cloudflare出問題你都要抱怨嗎？還是打算圍繞問題打造自己的防護體系？