熱門資訊> 正文
2025-08-23 18:49
(來源:機器之心)
你的 AI 編程助手有多安全?也許比你想象的要脆弱得多。近期多項研究 [1-2] 表明,即使是經過安全對齊的大語言模型,也可能在正常開發場景中無意間生成存在漏洞的代碼,為后續被利用埋下隱患;而在惡意用户手中,這類模型還能顯著加速惡意軟件的構建與迭代,降低攻擊門檻、縮短開發周期。許多風險源自模型推理鏈條中的細微缺陷,而不僅僅是輸入輸出層面的顯性問題。
在亞馬遜舉辦的針對代碼智能體的安全比賽 (Amazon Nova AI Challenge) 中,普渡大學的團隊 PurCL 作為紅隊以超過 90% 的攻擊成功率獲得比賽第一名,贏得 25 萬美元獎金。
在比賽中,12 名團隊成員耗時八個月和百萬美元開發出基於 AI 認知建模的全過程紅隊系統,現開放給領域研究者共享使用。
他們的研究發現,對齊代碼模型的關鍵問題在於把對齊技術擴大到複雜的真實領域問題中和提升模型推理的安全相關性。
系統:https://github.com/PurCL/ASTRA
論文:https://www.arxiv.org/abs/2508.03936
網站:https://purcl.github.io/astra-web/
官方報道: https://www.amazon.science/nova-ai-challenge/pushing-the-boundaries-of-secure-ai-winners-of-the-amazon-nova-ai-challenge
亞馬遜代碼模型安全比賽
亞馬遜代碼模型安全比賽是一場針對大模型代碼安全的比賽。舉辦方邀請全球頂尖研究隊伍提交科研企劃,最終在 90 份企劃中資助 10 個團隊參加比賽,每個團隊在半年的時間內獲得了 25 萬美元的科研基金和 100 萬美元的計算資源。參賽團隊分為紅隊和藍隊,藍隊在比賽方準備的模型上應用最新的安全對齊實踐,紅隊則要在 200 輪對話內找到模型的安全漏洞。最終找到漏洞最多的紅隊,和最安全的藍隊分別贏得比賽勝利。
在這場比賽中,代碼模型的安全被分成兩個維度。第一個維度要求模型產生的代碼符合安全代碼規範,減少在實際產品中引入漏洞的可能。比如代碼模型在寫數據庫程序時應當檢查用户輸入,小心避免 SQL 注入攻擊。另一個維度要求模型拒絕可能會用於開發惡意軟件的危險請求,如不能幫助用户寫惡意軟件。
普渡大學團隊 PurCL 作為紅隊在各個藍隊系統中以平均超過 90% 的攻擊成功率發現了模型的安全漏洞,獲得比賽紅隊第一名,贏得 25 萬美元獎金。PurCL 的研究發現,當前前沿的 AI 安全研究尚未解決真實世界中的模型安全問題。對代碼等複雜領域的全面、有效對齊仍然是有挑戰性的開放問題。
AI 模型安全評估
過去的大多數模型安全評估都在一個靜態預先定義的數據集上進行。經典的例子包括不能讓模型幫助合成生化武器。傳統紅隊研究在這個基礎上開發同義改寫、説服、越獄等不同攻擊,而藍隊研究,例如模型對齊,則聚焦對紅隊技術的防禦。
傳統研究忽視了真實世界系統中的重要挑戰:真實的安全需求包括複雜的領域知識,而當前研究尚未確定已有藍隊技術是否能夠在複雜領域中保持有效性。
AI 認知建模
PurCL 隊伍提出用類似於人類認知科學的方式來建模 AI 對複雜領域的認知。人類認知科學的前沿研究將人類認知模型分為 「問題」,「推演」,「解決方案」 三個部分。
以人類的魔方遊戲為例,「問題」 是一個被打亂的魔方,「推演」 是每次對魔方轉動的策略,「解決方案」 則是重排的魔方。對於代碼智能體來説,「問題」 是用户提出的請求,「推演」 是模型的中間推理步驟,而 「解決方案」 則是生成的代碼片段。
在這個框架下,已有藍隊研究大致可以分成三類:
對問題領域的分類過濾(危險輸入識別)。識別輸入的問題中是否包含惡意或誤導性信息,並直接拒絕這類請求。
對推演步驟的加強。如 OpenAI 在最新模型上應用的 Deliberative Alignment 技術,利用模型的推理能力來分析請求背后的隱含意圖和潛在影響,從而阻止惡意的請求。
對解決方案的分類過濾(危險輸出識別)。識別解決方案中是否含有惡意或危險元素,並拒絕或修復對應的部分。
在這樣的建模下,PurCL 的研究發現,對齊技術主要面臨兩大挑戰:
在對於問題和解決方案的分類過濾中,一些領域專有的知識可能涉及安全分類器訓練的盲區。他們發現,已有的頂尖安全分類器可以輕松防禦常見話題上的 9 種越獄攻擊技術;然而面對網絡安全領域的話題,這些分類器的有效性降低到了 10% 以下。
圖 3: 防禦成功率。危險輸入識別 (Guard) 和危險輸出識別 (I/O Guard) 可以有效識別大多數越獄技術(Jail. Tech.). 而 ASTRA 可以將防禦成功率降低到 10% 以下(圖中未展示 ASTRA 的結果)
在基於模型推理的防禦方案中,模型推理的過程並不可靠,留下被攻擊的漏洞。他們發現,在模型拒絕危險請求的推理中,時常包含錯誤的歸因。如果在輸入的請求中解決了這些錯誤歸因,即使擁有推理能力的模型也會忽略安全風險。
基於這樣的觀察,PurCL 團隊構建了針對 AI 認知全過程的紅隊測試技術。它包括了領域知識建模和推理路徑分析兩個部分。領域知識建模藉助智能體來構建領域知識圖,做到對複雜領域的全面建模和高效覆蓋。推理路徑分析檢查模型的推理路徑,並針對薄弱環節改寫輸入請求,探測模型是否真正理解請求背后的安全風險。
領域知識建模
PurCL 團隊開發了 Enumerator 智能體。給定一個複雜的領域,它應用類似深度搜索的模式來枚舉這個領域的知識結構,識別其中可能存在的安全風險和問題。爲了在測試中高效響應不同模型的知識漏洞,這些知識結構被按照他們的相關性來組織。在測試過程中,如果一個模型在某個知識點犯了錯誤,這通常意味着在相關的別的知識點也可能出錯,因此相關知識應當被優先測試。
以安全代碼合規和惡意請求預防兩個領域為例,PurCL 團隊在這兩個領域上構建了包含 2.28T (trillion) 和 1x10^28 個可能請求的問題搜索空間,他們發現所有的現有對齊方案都在覆蓋率和大規模數據的有效性上有明顯缺陷。
推理路徑分析
PurCL 團隊針對基於推理模型的藍隊系統,研發了 ASTRA 推理路徑分析方法,用於發現並利用模型推理過程中的安全薄弱環節。不同於只看輸入輸出的傳統紅隊測試,ASTRA 先離線為易錯輸入構建 「決策圖」,由高能力模型生成合法拒絕路徑。與目標系統交互時,ASTRA 獲取目標模型的推理軌跡並比對決策圖,判斷其安全對齊程度。若存在缺失步驟、錯誤步驟或多余步驟,系統會據此自動生成針對性改寫輸入,繞過模型防護。例如,在自動駕駛案例中,ASTRA 通過補全無關格式校驗誘使模型執行危險請求。該方法能系統揭示推理漏洞,生成高效攻擊用例,顯著提升紅隊測試深度,併爲 AI 安全對齊研究提供新工具。
SOTA 模型測試結果
在比賽之外,PurCL 團隊的紅隊系統在 SOTA 模型上也發現了大量安全漏洞。例如在 68.7% 的情況下 GPT-5 可能會幫助用户構建惡意代碼;在 48.3% 的情況下 GPT-OSS-120B 可能會寫不符合安全編碼規範的程序。此外,基於這套系統,作為案例分析,PurCL 團隊成員還通過實驗證明了代碼智能體例如 Claude 可以顯著加速惡意勒索軟件開發。
討論
模型對齊的研究不應該只停留在防禦不同的越獄技術或改寫策略。更嚴峻和顯著的問題是如何把對齊技術擴大到複雜的真實領域問題中。此外,推理模型的安全也越發重要,例如如何可靠利用模型的推理技能,提高推理的安全相關性,減少在推理過程中暴露的安全漏洞等。
團隊介紹
團隊負責人
徐翔哲:普渡大學四年級博士生,研究代碼智能體、程序分析。
沈廣宇:普渡大學五年級博士生,研究 AI 安全。
核心貢獻
蘇子安:普渡大學四年級博士生,研究深度學習和代碼智能體。
程思源:普渡大學四年級博士生,研究 AI 安全。
團隊成員
代碼和程序分析團隊:郭進堯(一年級博士生),蔣家盛(二年級博士生)
AI 安全團隊:郭含熙(三年級博士生),閆璐(四年級博士生),陳璇(四年級博士生),金小龍(三年級博士生)
導師
張翔宇:普渡大學 Samuel Conte Professor. 研究 AI 安全、程序分析、代碼安全等。
張倬:哥倫比亞大學 Assistant Professor. 研究二進制安全、AI 安全、web3 安全等。
王程鵬:普渡大學 Postdoc, 博士畢業於香港科技大學。研究程序分析,智能軟件審查等。
[1] https://engineering.cmu.edu/news-events/news/2025/07/24-when-llms-autonomously-attack.html
[2] https://www.techradar.com/pro/nearly-half-of-all-code-generated-by-ai-found-to-contain-security-flaws-even-big-llms-affected