熱門資訊> 正文
2025-07-14 09:17
NVIDIA 敦促客户啟用系統級錯誤糾正碼 (ECC),以防禦針對其圖形處理單元 (GPU) 的 RowHammer 攻擊變體。
這家 GPU 製造商在本周發佈的一份諮詢報告中表示: 「RowHammer 攻擊成功利用的風險因 DRAM 設備、平臺、設計規範和系統設置而異。」
此次攻擊被稱為GPUHammer,是首次針對 NVIDIA GPU(例如,帶有 GDDR6 內存的 NVIDIA A6000 GPU)的 RowHammer 漏洞利用,導致惡意 GPU 用户通過觸發 GPU 內存中的位翻轉來篡改其他用户的數據。
多倫多大學的研究人員發現,這種行為最令人擔憂的后果是人工智能 (AI) 模型的準確率從 80% 下降到 1% 以下。
RowHammer之於現代 DRAM 就像Spectre 和 Meltdown之於當代 CPU。雖然兩者都是硬件級安全漏洞,但 RowHammer 針對的是 DRAM 內存的物理行為,而 Spectre 則利用的是CPU 中的推測執行。
RowHammer是由於重複訪問內存導致 DRAM 中出現電氣干擾而導致附近內存單元發生位翻轉,而Spectre 和 Meltdown 則允許攻擊者通過旁道攻擊從內存中獲取特權信息,從而可能泄露敏感數據。
2022年,密歇根大學和佐治亞理工學院的學者描述了一種名為SpecHammer的技術,該技術結合了RowHammer和Spectre來發起推測性攻擊。該方法本質上是利用Rowhammer的位翻轉將惡意值插入受害設備,從而觸發Spectre v1攻擊。
GPUHammer 是 RowHammer 的最新變種,即使採取了目標刷新率 (TRR) 等緩解措施,也能在 NVIDIA GPU 中引發位翻轉。與多年來受益於側信道防禦研究的 CPU 不同,GPU 通常缺乏奇偶校驗和指令級訪問控制,這使得其內存完整性更容易受到低級故障注入攻擊。
在研究人員開發的概念驗證中,使用單比特翻轉篡改受害者的 ImageNet 深度神經網絡 (DNN) 模型,可將模型準確率從 80% 降至 0.1%。這清楚地表明,GPUHammer 並非僅僅是內存故障——它是針對 AI 基礎設施核心的更廣泛攻擊浪潮的一部分,這些攻擊涵蓋了從 GPU 級故障到數據中毒和模型管道入侵等各種攻擊。
GPUHammer 等漏洞威脅着人工智能模型的完整性,而人工智能模型越來越依賴 GPU 來執行並行處理和計算要求高的任務,更不用説為雲平臺開闢了新的攻擊面。
在雲機器學習平臺或 VDI 設置等共享 GPU 環境中,惡意租户可能會針對相鄰的工作負載啟動 GPUHammer,從而影響推理準確性或破壞緩存的模型參數(無需直接訪問)。這會造成跨租户風險,而這在當前的 GPU 安全態勢中通常不會被考慮到。
這一發展與人們對人工智能模型可靠性和對抗性機器學習的更廣泛擔憂息息相關,攻擊者利用輸入或內存漏洞來操縱輸出。GPUHammer 代表了一種在模型層以下運作的新型攻擊——改變內部權重而非外部數據。
其影響延伸至邊緣人工智能部署、自主系統和欺詐檢測引擎,在這些地方,無聲腐敗可能不易被發現或逆轉。
爲了減輕 GPUHammer 帶來的風險,建議通過「nvidia-smi -e 1」啟用 ECC。用户可以通過運行 nvidia-smi -q | grep ECC 來驗證 ECC 狀態,該命令會報告 ECC 是否受支持以及當前是否已啟用。
爲了在保持保護的同時最大限度地降低影響,某些配置允許選擇性地僅針對訓練節點或高風險工作負載啟用 ECC。監控 GPU 錯誤日誌(/var/log/syslog 或 dmesg)以獲取與 ECC 相關的更正也是一種很好的做法,這些更正可以指示正在進行的位翻轉嘗試。
較新的 NVIDIA GPU(例如 H100 或 RTX 5090)不受影響,因為它們具有片上 ECC,這有助於檢測和糾正由於與更小、更密集的內存芯片相關的電壓波動而引起的錯誤。
該研究的主要作者 Chris (Shaopeng) Lin、Joyce Qu 和 Gururaj Saileshwar 表示:「啟用糾錯碼 (ECC) 可以減輕這種風險,但 ECC 可能會導致 A6000 GPU 上的 [機器學習] 推理工作負載速度降低 10%」,並補充説它還會使內存容量減少 6.25%。
此次披露是在 NTT 社會信息實驗室和 CentraleSupelec 的研究人員提出 CrowHammer 之際發佈的,CrowHammer 是一種 RowHammer 攻擊,可以對FALCON(FIPS 206)后量子簽名方案進行密鑰恢復攻擊,該方案已被NIST選為標準化方案。
研究稱:「使用 RowHammer,我們針對 Falcon 的 RCDT [反向累積分佈表] 觸發極少量的定向位翻轉,並證明由此產生的分佈足夠傾斜,可以執行密鑰恢復攻擊。」
「我們證明,只要有幾億個簽名,一次有針對性的位翻轉就足以完全恢復簽名密鑰,而更多的位翻轉則可以用更少的簽名恢復密鑰。」
對於受嚴格合規規則約束的行業(例如醫療保健、金融和自治系統),由於位翻轉攻擊導致的 AI 靜默故障會帶來監管風險。損壞的模型導致的錯誤推理可能違反 ISO/IEC 27001 或歐盟《人工智能法案》等框架下的安全性、可解釋性或數據完整性要求。部署 GPU 密集型 AI 的組織必須將 GPU 內存完整性納入其安全和審計範圍。
AMD 警告稱新的漏洞
AMD 警告用户,一種新發現的側信道攻擊會影響其多種芯片,並可能導致信息泄露。
瞬態調度程序攻擊 (TSA) 與Meltdown 和 Spectre類似,包含四個漏洞,AMD 表示,它們是在調查微軟關於微架構泄漏的報告時發現的。
這四個漏洞表面上看起來並不太嚴重——其中兩個漏洞的嚴重程度評級為中等,另外兩個漏洞的嚴重程度評級為「低」。然而,由於漏洞影響程度較低,趨勢科技和 CrowdStrike 仍將其威脅級別評定為「嚴重」。
嚴重程度評分較低的原因是成功攻擊涉及的高度複雜性——AMD 表示,只有能夠在目標機器上運行任意代碼的攻擊者才能實施攻擊。
它影響 AMD 處理器(臺式機、移動和數據中心型號),包括第三代和第四代 EPYC 芯片。
據報道,他們需要通過惡意軟件或惡意虛擬機對機器進行本地訪問,但攻擊只需要較低的權限即可成功。
AMD 認為,影響其芯片的 TSA 無法通過惡意網站利用,並且需要執行多次才能可靠地竊取任何數據。
這是因為攻擊取決於錯誤完成,當 CPU 期望加載指令快速完成但某種情況阻止它們成功完成時就會發生錯誤完成。
由於加載未完成,與該加載相關的數據可能會被轉發到相關操作,從而可能以攻擊者可以看到的方式影響 CPU 執行指令的時間。
在這兩個中等嚴重程度漏洞引發的最壞情況下,對 AMD 芯片的成功攻擊可能導致操作系統內核信息泄露。其他情況下,應用程序或虛擬機也可能導致數據泄露。
低嚴重程度的錯誤可能導致內部 CPU 操作細節泄露,AMD 並不認為這種數據類型是敏感的。
訪問內核數據可能使攻擊者能夠提升權限、繞過安全機制、建立持久性等等。
AMD 表示,有兩種不同的 TSA 變體可以在其芯片上執行。它們分別被稱為 TSA-L1 和 TSA-SQ,因為它們指的是能夠從 L1 緩存和 CPU 存儲隊列推斷數據的側信道攻擊。
根據 AMD 的技術文檔中關於其發現的內容,TSA-L1 漏洞是由 L1 緩存使用微標籤進行查找的方式錯誤引起的。CPU 可能會誤以為數據在緩存中,而實際上並非如此,從而導致加載錯誤的數據,攻擊者可能會據此推斷。
當加載指令在所需數據不可用的情況下錯誤地從存儲隊列中檢索數據時,就會出現 TSA-SQ 漏洞。在這種情況下,攻擊者可以檢測到錯誤的數據,並利用這些數據推斷先前加載的存儲(例如來自操作系統內核的數據),即使這些存儲是在不同的上下文中執行的。
受 TSA 影響的芯片系列數量相當廣泛,既影響消費級系統,也影響企業級系統。
總體上看,EPYC、Ryzen、Instinct和 Athlon 系列芯片應該進行更新。
AMD 建議系統管理員更新到最新的 Windows 版本以防範這些 TSA。目前有一種緩解措施涉及 VERW 指令,但 AMD 表示這可能會影響系統性能,因此決定採取哪種補救措施需要每位管理員進行風險與回報評估。
好消息是,這類攻擊不僅難以實施(通常只有資源最豐富的團體纔會這麼做),而且據微軟稱,目前還沒有任何地方存在已知的漏洞代碼。
參考鏈接
https://thehackernews.com/2025/07/gpuhammer-new-rowhammer-attack-variant.html?m=1
https://www.theregister.com/2025/07/09/amd_tsa_side_channel/