上週五,世界經歷了歷史上最大規模的關鍵 Windows PC 基礎設施的全球中斷- 這個問題是由其核心級 Falcon Sensor 軟體的 CrowdStrike 更新失敗引起的,導致現代 Windows 系統從根本上無法運行,以至於無法在世界各地飛行被延誤了。西南航空設法避免了這個問題,因為該公司使用的是 Windows 3.1,而不是任何遠端現代版本的作業系統。
但事實證明,這個問題不僅存在於現代 Windows 作業系統中。根據 The Register 報道,早在今年 4 月以來,Linux 用戶就一直報告與同一軟體相關的核心恐慌和崩潰。
那麼,這個問題是如何跨平台的呢?很可能不是過去幾天造成混亂的原因——畢竟,如果是這樣的話,我們會更快地看到它癱瘓 Windows 機器。然而,這確實表明 CrowdStrike 顯然在相當長一段時間內對其 Falcon 感測器安全軟體鬆懈了。
對於那些不熟悉的人來說,作業系統的「核心」是指使用者互動之外的層(通常稱為「殼層」),並且最直接地連接到下面的硬體。事實是,很少有電腦軟體實際上需要核心存取來完成其工作。雖然安全軟體肯定是一個例外,因為威脅經常可能試圖滲透內核,但確保該軟體不會導致任何目標平台的內核不穩定和崩潰仍然非常重要。
The Register 指出的一個有趣的附註是,CrowdStrike 的現任首席執行官 George Kurtz在 2010 年一次臭名昭著的更新中擔任 McAFee 的首席執行官,該更新導致多台 PC 陷入無休止的啟動循環。這可能使喬治·庫爾茨 (George Kurtz) 成為歷史上第一位主持兩次因安全軟體更新不良而導致的全球 PC 重大故障的執行長。
根據報告,受影響的 Linux 用戶包括使用 Red Hat Enterprise Linux、Debian Linux(Debian 是更廣泛使用的 Ubuntu 的基礎)和 Rocky Linux 的用戶。不過,所有相關問題都會影響底層 Linux 核心(跨 Linux 發行版通用),似乎會導致使用核心版本 5.14.0-42713.1 及更高版本的任何 Linux 發行版崩潰。
Linux 用戶似乎確實對此類問題有更多的追索權,包括切換到 eBPF“用戶模式”,但這說明瞭如果 CrowdStrike 正在設法癱瘓 Linux和Windows 作業系統,那麼該公司核心軟體開發問題的嚴重性。
它還表明,對於過去的全球中斷存在警告信號,並且 CrowdStrike 的系統應該在一段時間之前就已就位,以足夠積極地測試這些企業和政府目標的更新,以防止這些核心級崩潰。畢竟,在這些嚴格控制的環境中,大多數受影響的使用者可能不具備解決這些問題所需的管理存取權或知識。換句話說,為了 CrowdStrike 的持續長期成功,大幅改進的 QA 測試似乎是強制性的。
來源 |