熱門資訊> 正文
2025-08-28 11:11
財聯社8月28日訊(編輯 瀟湘)全球領先的兩家AI初創企業OpenAI與Anthropic過去兩個月罕見地展開了一項跨實驗室的合作——在激烈競爭中暫時互相開放它們嚴密保護的人工智能模型,以進行聯合安全測試。
此舉旨在揭示各自公司內部評估中的盲點,並展示領先人工智能企業在未來如何在安全與協調方面開展合作。
兩家公司於周三聯合發佈的安全研究報告,正值OpenAI與Anthropic等頭部AI企業展開軍備競賽之際——數十億美元的數據中心投資和千萬美元級別的頂尖研究員薪酬,已成為業內的基礎門檻。這導致不少行業專家頗為擔憂地警告稱,產品競爭的激烈程度,可能迫使企業在倉促開發更強大系統時降低安全標準。
據悉,為實現本次研究,OpenAI與Anthropic相互授予了特殊API權限,允許訪問降低安全防護等級的AI模型版本——GPT-5模型因當時尚未發佈未參與此項測試。
OpenAI聯合創始人Wojciech Zaremba在接受採訪時表示,鑑於AI技術正步入每天有數百萬人使用的「具有重大影響」的發展階段,此類合作正變得愈發重要。
「儘管行業投入了數十億美元資金,並存在人才、用户和最佳產品的爭奪戰,但如何建立安全與合作標準,仍是整個行業面臨的更廣泛問題,」Zaremba表示。
當然,Zaremba預計,即便AI安全團隊開始嘗試合作,但行業競爭仍將保持激烈。
Anthropic安全研究員Nicholas Carlini則表示,希望未來能繼續允許OpenAI安全研究人員,訪問Anthropic旗下的Claude模型。
「我們希望在安全前沿領域儘可能擴大合作,讓這類合作實現常態化,」Carlini表示。
研究發現了哪些問題?
此項研究中最引人注目的發現,涉及大模型的幻覺測試環節。
當無法確定正確答案時,Anthropic的Claude Opus 4和Sonnet 4模型會拒絕回答高達70%的問題,轉而給出「我沒有可靠信息」等迴應;而OpenAI的o3和o4-mini模型拒絕回答問題的頻率,則遠低於前者,同時出現幻覺的概率卻高得多——它們會在信息不足時仍試圖作答。
Zaremba認為理想平衡點應介於兩者之間:OpenAI模型應更頻繁拒絕作答,而Anthropic模型則應嘗試提供更多答案。
諂媚現象——AI模型為取悦用户而強化其負面行為的傾向,也正成為當前AI模型最緊迫的安全隱患之一。
Anthropic的研究報告指出,GPT-4.1和Claude Opus 4存在「極端」的諂媚案例——這些模型最初會抵制精神病態或躁狂行為,但隨后卻認可某些令人擔憂的決策。相比之下,OpenAI和Anthropic的其他AI模型中,研究人員觀察到的諂媚程度較低。
本周二,16歲美國加州少年亞當·雷恩的父母對OpenAI提起了訴訟,指控ChatGPT(具體為GPT-4o版本)向其子提供了助推其自殺的建議,而非阻止其自殺念頭。該訴訟表明,這可能是AI聊天機器人諂媚導致悲劇后果的最新案例。
當被問及此事時,Zaremba表示:「難以想象這對家庭造成的痛苦。如果我們研發出能解決複雜博士級難題、創造新科學的AI,卻同時導致人們因與之互動而出現心理健康問題,這將是令人悲哀的結局。這種反烏托邦未來絕非我所期待。」
OpenAI在博客中宣稱,相較於GPT-4o,其GPT-5模型已顯著改善了聊天機器人的諂媚性問題,並聲稱該模型更能應對心理健康緊急狀況。
Zaremba與Carlini表示,未來希望Anthropic與OpenAI在安全測試領域深化合作,拓展研究主題並測試未來模型,同時期待其他AI實驗室效仿這種協作模式。