2024 年 7 月 18 日(美國太平洋時間)獨立網絡安全公司 CrowdStrike 的一次軟件更新導致全球多個 IT 系統出現故障。雖然這并非微軟自身的技術問題,但考慮到這次事件已經影響了公司的生態系統,我們希望在此介紹一下過去一段時間內,微軟與 CrowdStrike 以及其他公司一同采取了哪些措施進行及時修復以及為客戶提供的支持服務。
自事件開始以來,我們一直與客戶、CrowdStrike 和外部開發者保持著持續的溝通,以收集信息并盡快找到解決方案。我們深知此次事件給眾多企業和個人的日常生活造成了負面的影響。我們希望能夠通過為用戶提供技術指導和支持的方式,盡快將中斷的系統安全地恢復正常狀態。具體采取的措施包括:
迅速與 CrowdStrike 合作,并通過自動化的方式開發解決方案。CrowdStrike 推薦了一個替代方案來解決此問題,同時發布公開聲明。Windows 消息中心同步發布了在 Windows 終端上解決此問題的操作方式指南。
數百名微軟工程師及技術專家直接與客戶合作,以恢復服務。
與包括谷歌云平臺(GCP)和亞馬遜網絡服務(AWS)在內的其他云計算供應商和相關方合作,分享各自在行業中看到的影響和情況,在及時告知 CrowdStrike 的同時,與客戶們保持積極的溝通。
通過 Azure 狀態儀表盤(Azure Status Dashboard)讓用戶及時了解事件的最新進展。
微軟正在夜以繼日地工作,提供持續更新和支持。此外,CrowdStrike 還幫助我們開發了一個可擴展的解決方案,幫助微軟智能云 Azure 基礎架構加速修復 CrowdStrike 的錯誤更新。我們還與 AWS 和 GCP 合作,共同研究更高效的解決方案。
軟件更新偶爾會引發服務干擾,但像此次 CrowdStrike 更新引發的重大事件并不常見。根據目前的估算,CrowdStrike 更新事故影響了 850 萬臺 Windows 設備,該數字不到所有 Windows 設備總量的 1%。盡管比例很小,但對經濟和社會運轉帶來了巨大影響。這反映出有許多關鍵服務的企業正在使用 CrowdStrike。
此次事件印證了在微軟廣泛的生態系統下,從全球云服務提供商、軟件平臺,到安全服務提供商供及其他軟件供應商,再到我們的客戶,彼此之間相互關聯。這也提醒著身處科技生態下的我們,利用現有機制、優先考慮安全部署和災備是至關重要的。正如過去兩天中我們所看到的,唯有緊密協作,齊心協力,才能更高效地吸取經驗、恢復服務并繼續前進。感謝所有相關方的合作與協同,我們將繼續更新此次事件的相關經驗和未來計劃。