多國上千航班停飛、銀行停業、媒體停播……微軟19日爆發重大服務中斷事件,影響到了包括交通、金融、媒體、醫療等在內的各行各業。
據微軟日本子公司確認,此次故障與第三方美國網絡安全企業CrowdStrike旗下軟件更新有關。微軟方面回應稱,「根本起因」已解決,但也表示殘餘影響會繼續影響某些微軟365程序和服務。美聯社稱,這一「全球性技術故障」凸顯了對少數供應商軟件的依賴。
內地觀察者網引述英國《衛報》報道,知名網絡安全顧問亨特(Troy Hunt)分析認為,這可能是歷史上規模最大的IT故障。「我認為現在下結論並不為時過早:這將是歷史上規模最大的IT故障。」他在社交媒體平台X(原推特)上寫道,「這基本上就是我們所有人對Y2K(千年蟲)問題的擔憂,只不過這次真的發生了。」
微軟發布的初步分析表示,故障始於美國中部的Azure區域數據中心,「部分Azure後端工作負載的配置更改導致存儲和計算資源之間中斷,從而導致連接故障,影響依賴這些連接的下游微軟365服務」。據報道,大多數死機都與雲端存儲服務OneDrive、服務器連接和郵件服務Outlook有關。
CrowdStrike首席執行官庫爾茨(George Kurtz)在X上稱,公司「積極與受Windows主機單一內容更新中發現的缺陷影響的客戶合作」,相關問題已被識別並部署修復程序。他強調:「這不是一起安全事件或網絡攻擊。」
CrowdStrike是總部位於美國加州森尼韋爾的電腦安全技術公司,提供端點安全、情報威脅等信息。據悉,許多受影響的Windows電腦與CrowdStrike一款名為「Falcon傳感器」(Falcon sensor)的用於收集安全數據的軟件有關。
受影響最嚴重的可能是航空、交通領域。英國廣播公司(BBC)引述航空分析公司Cirium的數據說,全球至少有1000多個航班被取消。美國聯合航空、達美航空、美國航空和忠實航空(Allegiant Air)等一度實行全球停飛令。
英國廉價航空公司瑞安航空(Ryanair)以及火車運營商TransPennine Express和Govia Thameslink Railway也受到了影響。瑞安航空建議所有乘客至少提前三小時到達機場。
由於機場的在線值機服務和自助值機服務癱瘓,排隊人數增加,許多人被困在機場。多間航司採用人工辦理登機手續和登機程序。
從各地報道來看,香港、台灣、東京、德里、柏林、蘇黎世、羅馬、阿姆斯特丹等地的機場也都受到影響。在洛杉磯國際機場,由於航班延誤,一些旅客不得不用背包和行李當枕頭席地而睡。
據央視新聞報道,從國航、東航、南航等多間航空公司了解到,航班未受到大範圍系統技術故障影響,航班運行正常。北京首都機場和大興機場出發的國際航班也運行正常。
BBC指出,澳洲受到的影響似乎尤其嚴重。跟蹤用戶報告的互聯網中斷情況的DownDetector網站顯示,包括澳洲最大的商業銀行澳洲國民銀行(NAB)、澳洲聯邦銀行、本迪戈銀行在內的金融機構,澳洲維珍航空(Virgin)、捷星航空(Jetstar)等航司,以及Telstra等互聯網和電話供應商都報告了故障。
據美聯社,澳洲的新聞機構,包括澳洲廣播公司(ABC)和天空新聞(Sky News),都無法在其電視和廣播頻道上進行廣播,並報告了Windows系統電腦突然關閉的情況。一些新聞主播在顯示「藍屏死機」的電腦前,從黑暗的辦公室進行在線直播。新西蘭的奧克蘭儲蓄銀行和新西蘭郵政銀行(Kiwibank)也表示其服務出現故障。
銀行系統死機也影響到許多日常支付。據社媒用戶報告說,在英國的麵包店和咖啡連鎖店Gail's和澳洲零售店Woolworths付款時遇到問題。在南非,至少有一家大銀行表示經歷了「全國性的服務中斷」,因為有客戶報告無法在雜貨店和加油站使用銀行卡付款。
在日本,環球影城的結帳系統也受到影響。從當地時間下午2時左右開始,園區內餐廳和紀念品商店的收銀機出現「藍屏」無法使用,所有店鋪宣布暫停營業。有人指出,日本麥當勞當天上午有約3成店鋪暫停營業,可能也是受到微軟故障的影響。西日本旅客鐵道公司(JR西日本)則是在下午2時20分左右,無法在官網和應用程式確認列車運行位置。
今次危機還波及公共醫療設施。據報道,美國阿拉斯加州官員表示,許多911和非緊急呼叫中心都無法正常工作。英國國民醫療服務體系(NHS)下的幾間診所則報告說,院內用於保存醫療記錄、製作排班表的臨床系統受到影響。
在德國北部,在基爾和呂貝克都設有分院的石勒蘇益格-荷爾斯泰因大學醫院(Schleswig-Holstein University Hospital)表示,已經取消了原定於19日進行的所有選擇性手術,但病人和急診護理不受影響。
此外,下周即將開幕的巴黎奧運會亦未能「倖免」。奧組委表示,其IT系統受到影響,但已充分動員技術團隊減輕影響,並已啟動應急計劃。不過,有消息人士告訴法新社,IT故障影響了奧運會認證系統,部分運動員可能無法在下周五的開幕典禮前領到徽章。
當前,CrowdStrike已經發布了修復程序。但BBC說,據知情人士稱,該程序必須單獨應用於受影響的每個設備,每台機器都需要在安全模式下手動重啟,這將給各地的IT部門帶來巨大的工作量。英國薩里大學網絡安全教授伍德沃德(Alan Woodward)表示,修復可能需要幾天時間。
伍德沃德指出,導致本輪中斷的「Falcon傳感器」軟件通常用於擁有大量個人電腦的大型機構,以確保所有電腦都受到監控。「擁有大量電腦的大型組織使用該產品來確保一切都受到監控。遺憾的是,如果他們失去了所有電腦,他們就無法運行,或者只能以大大降低的服務水準運行。」
美東時間19日早晨,CrowdStrike首席執行官庫爾茨首度接受媒體訪問回應此次「全球死機」事件,並致歉:「對於我們給客戶、旅客和任何受此影響的人造成的影響,我們深表歉意。」
他承認,事件是由公司旗下軟件更新導致,「該更新存在軟件錯誤,導致微軟操作系統出現問題……我們很快就發現了這個問題並進行了補救」,但對於「某些無法自動恢復的系統」,修復可能還需要一些時間,他也無法確定這需要多久。
為何僅僅是一次第三方軟件的內容更新就導致了全球範圍內航空系統、支付系統、醫療系統等的癱瘓?為什麼一個軟件錯誤就能產生如此深遠而直接的影響?今次與美國全國廣播公司(NBC)的最新訪問中,庫爾茨也被問到這一問題。
對此,庫爾茨告訴NBC主持人,網絡安全問題「非常複雜」,「要始終領先於(發動網絡攻擊的)對手無疑是一項艱巨的任務」,因此需要不斷更新。至於到底哪裡發生了「不良反應」,他必須「回去看看發生了什麼」。
「一次IT更新是如何引發全球災難的」,BBC科技編輯克萊因曼(Zoe Kleinman)以此為題寫道,這次事故「令人深思,世界已經變得多麼依賴由大公司遠程管理的設備,而當這些設備出現故障時,我們又是多麼無能為力」。
克萊因曼說,事情發生後,一名電腦科學家對她雙手抱頭感歎:「永遠不要在周五推送更新。」她說,這也是為什麼許多大公司傾向於在周中發布軟件更新,因為一旦出現問題,修復起來需要時間,公司在周末工作的人員通常較少,解決起來必然需要更長的時間。
深喉
** 博客文章文責自負,不代表本公司立場 **