繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

Cloudflare大宕機背后:為何把所有雞蛋都放在一個籃子里?

2025-11-19 11:12

周二,Cloudflare(NET.N)成為過去一個月內又一家發生大規模崩潰的網絡基礎設施巨頭,連續數小時讓包括X、ChatGPT、Spotify、Canva,甚至用於追蹤故障的DownDetector在內的整站全部顯示錯誤信息。

這是近期一連串服務中斷事件之一,網絡性能監測平臺Catchpoint的首席執行官兼聯合創始人梅赫迪·達烏迪(Mehdi Daoudi)表示,這應該成為企業的警鍾。

達烏迪説,所有人都把雞蛋放在同一個籃子里,一旦出問題就感到驚訝。這是公司自身的責任,要確保具備冗余和彈性。

此次故障發生前,微軟Azure和亞馬遜AWS在不到一周的時間里先后出問題,導致依賴這些大型服務商維持網站運行的互聯網大面積癱瘓。

Cloudflare同樣支撐着互聯網中相當重要的部分,它通過內容分發網絡保障網站在線,同時提供多種服務,包括DDoS攻擊防護和DNS。去年該公司表示,大約20% 的網絡流量經由Cloudflare運行,它還為財富500強中35% 的企業提供服務,除此之外還有「數百萬」其他客户。

Cloudflare的高速性能和安全記錄讓它成為全球網站的熱門選擇,但這次故障再次凸顯了網絡基礎設施行業的高度集中。

在AWS故障導致安全通訊應用Signal停止服務后,該公司總裁梅雷迪思·惠特克(Meredith Whittaker)表示,公司別無選擇,只能依賴大型雲服務提供商來運行。她寫道,實際上整個技術棧幾乎被三到四家企業所掌控。即使是微小偏差也可能帶來巨大的影響。

最近連續發生的故障仍然明確地表明,企業必須制定備份方案。達烏迪在接受採訪時表示,故障是必然存在的,而且只會越來越頻繁,影響範圍也只會越來越大,問題是你準備怎麼應對?

雖然微軟和AWS將各自的故障歸因於與DNS相關的問題,DNS是將網站域名轉換為IP地址的系統,但Cloudflare將此次的中斷追溯到一個配置文件。

Cloudflare發言人傑基·達頓(Jackie Dutton)則表示,周二故障的根源在於一個用於管理威脅流量的自動生成配置文件,該文件超出了預期的條目大小,最終觸發了處理Cloudflare多項服務流量的軟件系統崩潰。

這種文件問題竟然可以讓互聯網大片區域癱瘓,看似荒謬,但對於像Cloudflare這樣的大公司而言,卻完全可能發生。

SANS研究院人工智能與研究主管羅布·李(Rob Lee)表示,運營Cloudflare這種規模的基礎設施時,哪怕是極其輕微的偏差也會產生巨大后果。這些平臺爲了速度而構建,所以任何延迟或中斷決策的因素都可能迅速級聯。在高性能環境下,哪怕是毫秒級的延迟,也可能演變為完全的流量阻斷。

他還表示,Cloudflare所描述的這種配置文件,決定了路由安全策略、負載均衡決策以及流量如何在全球範圍分配。如果文件突然變大,就可能觸發解析變慢、內存問題、CPU爭用,或是在依賴它的系統中出現邏輯錯誤。

AWS同樣將最近一次大範圍中斷歸咎於「自動化故障」,這是這類錯誤迟早會再次發生。達烏迪説,每次Cloudflare出問題你都要抱怨嗎?還是打算圍繞問題打造自己的防護體系?

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。