OpenAI與Anthropic樹立典範！AI老對手間開始「互測」模型安全性

2025-08-28 11:11

財聯社8月28日訊（編輯瀟湘）全球領先的兩家AI初創企業OpenAI與Anthropic過去兩個月罕見地展開了一項跨實驗室的合作——在激烈競爭中暫時互相開放它們嚴密保護的人工智能模型，以進行聯合安全測試。

此舉旨在揭示各自公司內部評估中的盲點，並展示領先人工智能企業在未來如何在安全與協調方面開展合作。

兩家公司於周三聯合發佈的安全研究報告，正值OpenAI與Anthropic等頭部AI企業展開軍備競賽之際——數十億美元的數據中心投資和千萬美元級別的頂尖研究員薪酬，已成為業內的基礎門檻。這導致不少行業專家頗為擔憂地警告稱，產品競爭的激烈程度，可能迫使企業在倉促開發更強大系統時降低安全標準。

據悉，為實現本次研究，OpenAI與Anthropic相互授予了特殊API權限，允許訪問降低安全防護等級的AI模型版本——GPT-5模型因當時尚未發佈未參與此項測試。

OpenAI聯合創始人Wojciech Zaremba在接受採訪時表示，鑑於AI技術正步入每天有數百萬人使用的「具有重大影響」的發展階段，此類合作正變得愈發重要。

「儘管行業投入了數十億美元資金，並存在人才、用户和最佳產品的爭奪戰，但如何建立安全與合作標準，仍是整個行業面臨的更廣泛問題，」Zaremba表示。

當然，Zaremba預計，即便AI安全團隊開始嘗試合作，但行業競爭仍將保持激烈。

Anthropic安全研究員Nicholas Carlini則表示，希望未來能繼續允許OpenAI安全研究人員，訪問Anthropic旗下的Claude模型。

「我們希望在安全前沿領域儘可能擴大合作，讓這類合作實現常態化，」Carlini表示。

研究發現了哪些問題？

此項研究中最引人注目的發現，涉及大模型的幻覺測試環節。

當無法確定正確答案時，Anthropic的Claude Opus 4和Sonnet 4模型會拒絕回答高達70%的問題，轉而給出「我沒有可靠信息」等迴應；而OpenAI的o3和o4-mini模型拒絕回答問題的頻率，則遠低於前者，同時出現幻覺的概率卻高得多——它們會在信息不足時仍試圖作答。

Zaremba認為理想平衡點應介於兩者之間：OpenAI模型應更頻繁拒絕作答，而Anthropic模型則應嘗試提供更多答案。

諂媚現象——AI模型為取悦用户而強化其負面行為的傾向，也正成為當前AI模型最緊迫的安全隱患之一。

Anthropic的研究報告指出，GPT-4.1和Claude Opus 4存在「極端」的諂媚案例——這些模型最初會抵制精神病態或躁狂行為，但隨后卻認可某些令人擔憂的決策。相比之下，OpenAI和Anthropic的其他AI模型中，研究人員觀察到的諂媚程度較低。

本周二，16歲美國加州少年亞當·雷恩的父母對OpenAI提起了訴訟，指控ChatGPT(具體為GPT-4o版本)向其子提供了助推其自殺的建議，而非阻止其自殺念頭。該訴訟表明，這可能是AI聊天機器人諂媚導致悲劇后果的最新案例。

當被問及此事時，Zaremba表示：「難以想象這對家庭造成的痛苦。如果我們研發出能解決複雜博士級難題、創造新科學的AI，卻同時導致人們因與之互動而出現心理健康問題，這將是令人悲哀的結局。這種反烏托邦未來絕非我所期待。」

OpenAI在博客中宣稱，相較於GPT-4o，其GPT-5模型已顯著改善了聊天機器人的諂媚性問題，並聲稱該模型更能應對心理健康緊急狀況。

Zaremba與Carlini表示，未來希望Anthropic與OpenAI在安全測試領域深化合作，拓展研究主題並測試未來模型，同時期待其他AI實驗室效仿這種協作模式。