熱門資訊> 正文
2025-10-30 19:23
亞馬遜的 AWS 剛「崩」完沒多久,微軟的 Azure 也崩了......這讓很多人好奇,最近的雲廠商到底怎麼了?
日前,大量用户在 X(原 Twitter)、Hacker News、Reddit 等社交平臺上報告稱,微軟 Azure 出現大規模故障,連 Azure 官網、microsoft.com 都一度無法訪問。
根據故障追蹤網站 Downdetector 的統計,僅數小時內,全球多個地區的報告就累計上千起報告,顯示這次中斷影響範圍之廣,堪稱一次全球性事件。
微軟確認,Azure 自 2025 年 10 月 29 日(周三)UTC 時間 16:00(太平洋時間 09:00)起出現大範圍中斷,預計要到當日 UTC 時間 23:20(太平洋時間 16:20)才能完全恢復。
尷尬的是,這次宕機恰逢微軟發佈 2026 財年第一季度財報之際(微軟的財年並不與日曆年同步,其 2026 財年從 2025 年 7 月 1 日開始到 2026 年 6 月 30 日結束)。財報顯示,Azure 及其他雲服務的收入較去年同期增長了 40%,成為微軟在季度財報中披露的增速最快的業務板塊。
來源:https://www.microsoft.com/en-us/Investor/earnings/FY-2026-Q1/press-release-webcast
而此時 Azure 的全球性宕機事件的發生,似乎有些「打臉」。
據微軟自己公佈的影響範圍顯示,微軟自家的核心業務是「重災區」,包括 Office 365、Minecraft、Xbox Live 和 Copilot 在內的多項服務均出現不同程度的中斷。
微軟隨后在聲明中列出了受影響的 Azure 服務清單,範圍之廣令人咋舌:
「受影響的服務包括但不限於:App Service、Azure Active Directory B2C、Azure Communication Services、Azure Databricks、Azure Healthcare APIs、Azure Maps、Azure Portal、Azure SQL Database、Container Registry、Media Services、Microsoft Defender External Attack Surface Management、Microsoft Entra ID、Microsoft Purview、Microsoft Sentinel、Video Indexer、Virtual Desktop 等。」
這些項服務幾乎涵蓋了微軟雲生態的大半邊天。
不僅如此,依賴 Azure 的企業服務也遭殃。
其中,阿拉斯加航空(Alaska Airlines)在其網上上發表聲明稱,由於微軟 Azure 平臺發生全球性宕機,託管在其上的阿拉斯加航空和夏威夷航空多項服務中斷。航空公司提醒乘客:「無法在線值機的旅客請前往機場櫃檯領取登機牌,並在候機大廳預留更多時間。」
開源社區同樣受波及。當打開 Kubernetes 管理工具
「ResourceNotFound」 錯誤,顯示資源無法訪問。截至發稿,仍未恢復。
加拿大魁北克的醫療機構 Santé Québec 也報告部分病患訪問系統暫停運行——「由於微軟 Azure 全球服務中斷,一線接入點和虛擬護理平臺目前無法使用。」
此外,DownDetector 顯示星巴克、克羅格、Costco 等網站都出現了服務中斷高峰。
隨后,微軟發佈了初步調查報告,稱這次事故的核心在於 Azure Front Door(微軟的內容分發網絡服務)。
微軟表示,在 Azure Front Door(AFD)中,一次意外的租户配置更改引發了廣泛的服務中斷,影響了依賴 AFD 進行全球內容分發的微軟自家服務和客户應用。
這次更改引入了一個無效或不一致的配置狀態,導致大量 AFD 節點無法正常加載,從而引發下游服務的延迟增加、超時和連接錯誤。
隨着這些異常節點陸續從全球節點池中掉線,健康節點之間的流量分配出現了嚴重失衡,放大了故障影響,甚至讓部分「健康」區域也出現了間歇性可用的問題。
談到故障影響範圍,外媒 Tom’s Hardware 整理了微軟確認的受影響服務和地區,最后甚至調侃道:「微軟下次或許可以直接説‘無處不在’就行了!」
而后,微軟緊急阻止所有新的配置更改,以防止錯誤狀態繼續傳播,並開始在全球範圍內部署「最后一次已知正常」的配置版本。
恢復過程採取了分階段、漸進式策略,以確保系統穩定,並防止再次宕機。
最終,問題被追溯到租户配置部署流程中的缺陷:原本用於驗證並阻止錯誤部署的防護機制因軟件缺陷失效,導致異常配置繞過安全校驗。
微軟表示,目前已審查相關防護措施,並緊急增加了新的驗證與回滾機制,以防止類似問題在未來重演。
根據微軟公佈的事故處理時間線顯示,整個宕機持續了近 9 個小時:
不過,微軟也在初步報告中指出,「目前客户對 AFD 的配置修改仍處於暫時凍結狀態。解除后我們將另行通知。雖然整體的錯誤率與延迟已恢復到事發前水平,但仍有少量客户存在尾部問題,我們正在持續修復中。相關更新將通過 Azure Service Health 直接推送。」
事實上,這已經不是本月第一次雲平臺宕機了。
一周前,亞馬遜 AWS 就因 us-east-1 區域 DNS 問題導致全球混亂——熱門在線服務癱瘓、航班延誤、銀行系統受影響。當時 AWS 指出,問題源自 EC2 內部網絡監控子系統異常,引發連鎖故障。后來即使修復了,網絡上關於宕機帶來各種損失的爭議也一直持續至今。
如今,全球雲服務市場排名前兩的 AWS 和 Azure,連續出問題,這讓業內擔憂再度升溫。
前美國聯邦貿易委員會(FTC)委員、消費者金融保護局(CFPB)前主管 Rohit Chopra 在社交媒體上直言:「我們必須意識到,雲服務的高度集中不僅帶來不便,更是一種真實的系統性脆弱性。」
對於這種情況,美國網站性能監測服務商 Catchpoint CEO Mehdi Daoudi 也發表了自己的看法:「上周 AWS 出故障,這周輪到 Azure,我毫不懷疑下周又會有另一家《財富》100 強企業遭遇類似問題。即便是最先進的基礎設施,韌性缺口(系統、基礎設施或服務在面對故障、意外或壓力時的抵抗力和恢復能力不足的部分)依然普遍存在。Azure 宕機不僅影響核心服務,還波及 DNS 和 CDN 層,使依賴這些服務的工具——比如會話記錄和分析平臺——完全無法訪問。」
他強調,「像這樣的宕機在短短几小時內就可能讓行業損失數千萬美元。這也再次提醒我們,互聯網的高度互聯意味着一次配置錯誤或網絡邊緣變更(例如 AFD 端的問題)都可能迅速波及支撐全球數百萬用户的服務。歸根結底,韌性必須成為董事會層面的議題,否則這種長時間且代價高昂的宕機事件還會繼續發生。」
雲計算帶來了便利,但也讓全球互聯網更脆弱。AWS 和 Azure 的接連「罷工」,提醒我們:當少數幾家巨頭掌控了互聯網的大部分神經時,一次配置錯誤、一次網絡異常,就可能引發全球性連鎖反應。企業在享受雲服務帶來的彈性與便捷時,是否也該考慮冗余、多雲部署,甚至更多自主控制權?
對此,你有什麼樣的看法?歡迎留言分享。
參考:
https://azure.status.microsoft/en-gb/status/history/
https://www.tomshardware.com/news/live/aws-outage-strikes-again-colossal-internet-breakdown-strikes-again
https://www.techradar.com/pro/live/microsoft-down-major-outage-hits-azure-365-and-more-even-minecraft-affected
本文來自微信公眾號「CSDN」,整理:屠敏 ,36氪經授權發佈。