繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

OpenAI與Anthropic樹立典範!AI老對手間開始「互測」模型安全性

2025-08-28 11:11

財聯社8月28日訊(編輯 瀟湘)全球領先的兩家AI初創企業OpenAI與Anthropic過去兩個月罕見地展開了一項跨實驗室的合作——在激烈競爭中暫時互相開放它們嚴密保護的人工智能模型,以進行聯合安全測試。

此舉旨在揭示各自公司內部評估中的盲點,並展示領先人工智能企業在未來如何在安全與協調方面開展合作。

兩家公司於周三聯合發佈的安全研究報告,正值OpenAI與Anthropic等頭部AI企業展開軍備競賽之際——數十億美元的數據中心投資和千萬美元級別的頂尖研究員薪酬,已成為業內的基礎門檻。這導致不少行業專家頗為擔憂地警告稱,產品競爭的激烈程度,可能迫使企業在倉促開發更強大系統時降低安全標準。

image

據悉,為實現本次研究,OpenAI與Anthropic相互授予了特殊API權限,允許訪問降低安全防護等級的AI模型版本——GPT-5模型因當時尚未發佈未參與此項測試。

OpenAI聯合創始人Wojciech Zaremba在接受採訪時表示,鑑於AI技術正步入每天有數百萬人使用的「具有重大影響」的發展階段,此類合作正變得愈發重要。

「儘管行業投入了數十億美元資金,並存在人才、用户和最佳產品的爭奪戰,但如何建立安全與合作標準,仍是整個行業面臨的更廣泛問題,」Zaremba表示。

當然,Zaremba預計,即便AI安全團隊開始嘗試合作,但行業競爭仍將保持激烈。

Anthropic安全研究員Nicholas Carlini則表示,希望未來能繼續允許OpenAI安全研究人員,訪問Anthropic旗下的Claude模型。

「我們希望在安全前沿領域儘可能擴大合作,讓這類合作實現常態化,」Carlini表示。

研究發現了哪些問題?

此項研究中最引人注目的發現,涉及大模型的幻覺測試環節。

當無法確定正確答案時,Anthropic的Claude Opus 4和Sonnet 4模型會拒絕回答高達70%的問題,轉而給出「我沒有可靠信息」等迴應;而OpenAI的o3和o4-mini模型拒絕回答問題的頻率,則遠低於前者,同時出現幻覺的概率卻高得多——它們會在信息不足時仍試圖作答。

Zaremba認為理想平衡點應介於兩者之間:OpenAI模型應更頻繁拒絕作答,而Anthropic模型則應嘗試提供更多答案。

諂媚現象——AI模型為取悦用户而強化其負面行為的傾向,也正成為當前AI模型最緊迫的安全隱患之一。

Anthropic的研究報告指出,GPT-4.1和Claude Opus 4存在「極端」的諂媚案例——這些模型最初會抵制精神病態或躁狂行為,但隨后卻認可某些令人擔憂的決策。相比之下,OpenAI和Anthropic的其他AI模型中,研究人員觀察到的諂媚程度較低。

本周二,16歲美國加州少年亞當·雷恩的父母對OpenAI提起了訴訟,指控ChatGPT(具體為GPT-4o版本)向其子提供了助推其自殺的建議,而非阻止其自殺念頭。該訴訟表明,這可能是AI聊天機器人諂媚導致悲劇后果的最新案例。

當被問及此事時,Zaremba表示:「難以想象這對家庭造成的痛苦。如果我們研發出能解決複雜博士級難題、創造新科學的AI,卻同時導致人們因與之互動而出現心理健康問題,這將是令人悲哀的結局。這種反烏托邦未來絕非我所期待。」

OpenAI在博客中宣稱,相較於GPT-4o,其GPT-5模型已顯著改善了聊天機器人的諂媚性問題,並聲稱該模型更能應對心理健康緊急狀況。

Zaremba與Carlini表示,未來希望Anthropic與OpenAI在安全測試領域深化合作,拓展研究主題並測試未來模型,同時期待其他AI實驗室效仿這種協作模式。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。