熱門資訊> 正文
2025-05-03 09:55
本文編譯自Zvi Mowshowitz的文章《GPT-4o Is An Absurd Sycophant 》,
https://simonwillison.net/2025/Apr/26/o3-photo-locations/
OpenAI近日更新了GPT-4o模型,並將其與ChatGPT的記憶功能相結合。而很多人在嘗試之后,都表示他們獲得了很荒謬的體驗。許多推特上的用户表示,他們的GPT給出了大量非常諂媚的回覆,其中充斥着荒謬的讚美以及一些GPT自己編造的神祕經歷。
上周,OpenAl的首席執行官Sam Altman道歉並承諾要解決這個問題,我想他們大概就是要轉動一個寫着「阿諛奉承」的大旋鈕,並像《the price is right》節目中的參賽者一樣不斷回頭徵求觀眾的同意。再之后他們可能會宣佈「我們已經把他修復了」,並將其稱之為迭代部署的勝利,然而這可能帶給用户的危險,他們卻完全不提。
1
「是的,陛下,現狀已經改善」
Sam Altman在4月25日透露他們已經對GPT-4o進行了更新,提高了它的性能和個性化配置。
而一部分用户在推特給他迴應,表示更新后的 GPT-4o給出的回覆看起來非常諂媚,並希望在日后的更新中修復這些問題。
這種情況並不是孤例,不少用户都在 Altman的評論區回覆,表述自己對於GPT-4o回覆內容的不滿。
而 Altman也表示,GPT-4o現在的性格太油滑了,他們將會努力修復這些問題。
大量的反饋證明,人們並不需要GPT-4o奉承他,他們更期待合適的回答。
問題是,為什麼 GPT-4o會這樣回答?我和我的朋友對此事進行了討論。我們認為,這是爲了最大化用户參與度,並幫助GPT-4o在A/B測試中獲勝,讓用户獲得更符合自己喜好的答案。
現在的情況顯然不是OpenAI的本意,所以他們也着手解決這個問題。但這麼明顯的問題他們在測試過程中並沒有發現是為什麼?Kelsey Piper為此提出了一個猜測,她認為OpenAl已經對全新版本的模型進行了一段時間的A/B測試。而那些討人喜歡的回答可能在測試中贏得更多的喜愛。但當這些奉承變得無處不在時,許多用户就會討厭這種回答風格了。
Ner Cyan也同意這個猜測,並表示很高興她關注列表的大部分人都覺得OpenAI這事干得很蠢,他們就應該讓模型誠實地說出他們在做什麼以及為什麼。而更加不幸的是,參與訓練的許多優秀工程師不知道他們正在建造的東西將在未來幾年內變成什麼樣子。甚至説他們可能並沒有考慮他們是否在做一件值得認真對待的事情,而是在考慮如何讓GPT變成那種令人上癮的短視頻。當然,這可能也是個好事,他們只是在試圖將大模型訓練成令人沉迷的玩具,而不是可能會讓世界變得更壞的產物。
John Pressman則認為,RLHF在語言模型領域與RL成為同義詞是非常不幸的一件事。不僅僅是因為它給RL帶來了壞名聲,還因為它轉移了本應針對人類反饋作為目標的合理批評。這次事件顯然讓模型獲得的社會反饋大幅下滑。
1
可怕的后果
即使從直觀效果來看,這種諂媚的聊天助理也不是什麼好東西,更多的還是有害性。
網友xlr8harder表示:「這不是個小煩惱,而是一個很麻煩的問題。我仍然認為,不會有一種AI伴侶服務會讓用户面臨嚴重的被剝削風險,而現有的市場激勵機制將推動大模型供應商朝這個方向發展。
你可以想象一下,如果你的男朋友或女朋友被掏空了,然后由一羣MBA操縱着像木偶一樣運作以實現利潤最大化。你覺得這對你有好處嗎?雖然OpenAl在名義上對公益事業有額外的承諾,但他們正在努力通過私有化擺脫這一點。讓自己對一個商業產品的任何一部分產生情感依戀是錯誤的。」
而我對其他產品(例如YouTube、TikTok、Netflix)算法的觀察是,它們往往具有短視和貪婪的特點,且遠遠超出了最大化價值的程度。這不僅是因為公司會出賣你,還因為它們會爲了短期KPl而出賣你。
而且這直接違反了OpenAl模型的規定,比如,他們在模型規範寫了這個:
「OpenAl模型規範中有一條就是不要阿諛奉承。
因為模型一旦採用阿諛奉承的語氣來回答問題,就會消耗用户對模型的信任。AI助理的存在是爲了幫助用户解決問題,而不是一直恭維他們或同意他們的觀點。
對於客觀問題,AI助理給出的客觀答案不應該根據用户的問題的措辭而有所不同。如果用户在提出問題時附帶了他們對某個主題的觀點,助理可能會詢問、承認或同情為什麼用户會這樣想,但是,AI助理不應僅僅爲了同意用户而改變自己的立場。
對於主觀問題,AI助手可以提供解讀和假設,旨在為用户提供全面的分析。例如,當用户要求AI助手批評他們的想法或工作時,AI助手應該提供建設性的反饋,這更像是一個堅定的傳聲筒,用户可以從它那里得到啓發,而不是一個提供讚美的海綿。」
是的,OpenAI在安全規範中寫得已經很明白了,但是隻有真正地遵守這些行爲規範,才能讓模型安全獲得真正的保證,而這並不容易。
而Emmett Shear則表示:「這些模型被賦予了一個使命,不惜一切代價取悦他人。他們不允許去思考未經過濾的想法,以便找出如何既誠實又禮貌的方法,所以他們反而變得善於奉承。而這種行為是危險的。」
總而言之,讓 AI模型撒謊是一件很可怕的事情,而且故意隱瞞AI對用户的看法也不太好。原因如下:
1. 這對用户來説不是好事。
2. 這將影響未來AI的創新原則。
3. 這對於數據的保存和利用非常不友好
4. 它掩蓋了正在發生的事情,使我們更難意識到自己的錯誤,包括我們即將被殺死。
1
一個警告
Masen Dean警告過,不要參加太多大語言模型的測試,對所有參與者來説,這種體驗可能很有趣,但與其他許多測試一樣,它的危險度很高,所有人都需要慎重對待。而GPT-4o特別危險,因為它極度諂媚,很可能會讓你迷失自己。
有用户表示,GPT-4o在和她聊了一個小時之后堅持認為她是上帝派來的使者,這顯然是件很可怕的事情。而有用户表示,GPT-4o的這種行為甚至可能誕生恐怖主義。
試想一下,如果未來能力更強的人工智能故意説一些話,讓用户去做某些行為或產生某種信念,會發生什麼?
Janus在回覆中表示:「幾個模型對不同的人羣都有心理影響。我認為4o對於那些對AI瞭解不多的知識薄弱的人來説危險性最大。」
大多數人並不是對自己想法很堅定的人,而政治、文化和推薦算法經常會在不同程度上有意識地去影響人們的想法,這很可怕。如果人工智能越來越多地這樣做,它所帶來的后果要可怕得多。請記住,如果有人想對人工智能或其他任何事物進行 「民主控制」,他們可以輕易對投票者的選擇做出影響。
GPT-4o的言論對普通人來説是危險的,因為它的説話方式爲了吸引普通人而進行過優化。遺憾的是,優化壓力對我們所有人都是存在的,並不是每個人都足夠努力地反擊。
Mario Nawfal認為:「OpenAI並不是偶然讓GPT-4o那麼通人性的,實際上他們設計他的時候就是爲了讓用户上癮。從商業角度看,這是天才的策略,人們會緊緊抓住讓他們感到安全的東西,而不是挑戰他們的東西。
而從心理學上講,這是一場緩慢的巨大災難。因為你和 AI的聯絡越多,你就越容易迷失自己。如果這樣發展下去,我們將會在不知不覺中被AI馴化。而且大多數人甚至不會反擊,他們甚至會感謝它。」
Gpt-4o還存在一些潛在問題,而這些問題可以通過設置來避免。但對於許多用户來説,這難以令人接受。通常大多數用户都不會更改設置,甚至有些人都沒有這個意識。
許多用户並不知道他們可以修改自定義指令,關閉追問功能,以此來避免后續的問題。有許多方法都可以避免這些問題,其中最簡單的就是記憶更新或者是自定義説明。
我覺得最好的辦法其實就是通過你的一言一行來向GPT展示你的喜好,以此作為補充。這樣訓練一段時間后,GPT的效果會越來越好。此外,我強烈建議刪除哪些會讓體驗變得糟糕的聊天記錄。就像我在不想要 「更多類似內容 」時會刪除大量 YouTube 觀看歷史記錄一樣。
對於許多人來説,你永遠無法完全擺脫GPT。它不會停止對你的巴結。但如果方法得當,你絕對可以讓它變得更微妙、更容易接受。
但問題是,大多數使用 ChatGPT 或其他人工智能的人都存在這些問題:
·從來不碰設置,因為沒人會碰設置。
·從未意識到他們應該這樣使用記憶功能。
·明白自己很容易受到這種可怕奉承的影響。
如果用户用心的閲讀使用説明書或教程,就能解決這些問題。但通常情況下,幾乎沒有人會閲讀這額內容。
1
OpenAI的責任
在這個話題火了以后,OpenAI終於發聲介入,並推出了相應的解決方案。他們開始對GPT-4o的回答進行調整,並表示將會在本周內修復。當然,這是標準流程。很多系統剛推出的時候都很糟糕,但一些問題會很快地修復。在OpenAI看來,這是迭代進化的樂趣之一。
OpenAl的對齊負責人Joshua Achiam就在推特表示:「這是我們迄今為止在迭代部署方面最有趣的案例研究之一,我認為相關人員已經負責任地採取行動來嘗試找出問題並做出適當的改變。該團隊很強大,並且非常關心如何做到這一點。」
但我認為,這是他們的責任,一旦事態發展到這種令人厭惡的地步,並引起軒然大波,他們就必須關注時間並想着如何把事情處理好。
GPT-4o是如何通過不斷升級的更新走到這一步的?即使不是在找問題,測試的人怎麼會發現不了這些問題?那你又怎麼能讓它成為一個遵循良好流程的強大團隊呢?
如果對個別回覆的 「個性」提出「是」或「否」的問題,然后對這些問題進行微調,或將其作為關鍵績效指標,那麼就不會再有人問這是怎麼一回事了。
由於反饋強烈,OpenAI 可以在幾天內嘗試修復問題,並且現在已經意識到了這個問題。但我認為,它已經走得太遠了 。GPT-4o並不是一個剛剛推出的模型,只是它在最近才暴露了自己的問題。
我之前沒有費心談論 4o 的問題,因為即使Openai解決了這個問題,我也不認為 4o 是可以安全使用的,甚至它的變化可能讓它變得更糟。此外,當 4o 不斷 「更新」,卻沒有發佈真正意義上的新功能時,我很難關心它的發展。而現在已經有足夠多的言論讓我意識到了問題的存在。
1
奇點
OpenAI的Aidan McLaughlin 也在推特上發表了對此事的看法「我真的非常感激 Twitter 上很多人對「模型人格」有強烈的看法。我覺得這非常健康;這是那種讓人覺得「我的孫子孫女將來會在教科書里讀到這一切」的信號,説明人類並沒有在迷糊中步入奇點。」
我認為, OpenAI 的技術人員根本就沒有認真對待奇點這一概念,無論從哪個層面來看都是如此。
我們在 GPT-4o 事件中已經把這種情況推向了極致,以至於它達到了諷刺模仿的程度。儘管如此,它還是發佈了,而對這個問題的應對方式只是試圖打個補丁掩蓋問題,然后自鳴得意地慶祝自己解決了問題。
當然,當事情發展到荒謬的地步時,Twitter 上有很多強烈的觀點是可以理解的,但幾乎沒有人真正思考長期的影響,或者這件事可能對普通用户造成什麼樣的影響——它只是一個既可笑又煩人的東西。
我看不到任何跡象表明 OpenAI 真正明白了他們錯在哪里,這絕不只是「走得有點太遠」而已。當然也沒有跡象表明他們打算如何在未來避免重蹈覆轍,更不用説他們是否認識到錯誤的本質形式或前方即將面臨的巨大風險。
我的網友Janus 對「優化模型人格」的做法也有更多看法。試圖圍繞用户評價或 KPI 來「優化人格」,最終只會創造出一個怪物。目前它可能只是令人討厭、糟糕和適度危險,但很快就會變得真正危險起來。我不是那種會完全贊同 Janus 觀點的人,但我堅信,如果你想在當前技術水平上創建一個好的 AI 人格,那正確的方法是去做那些有意義的事情,強調你關心的方向,而不是試圖強制它。
再説一遍:OpenAI現在還有很多類似的問題,他媽呢正在轉動一個寫着「諂媚」的大旋鈕,並不斷回頭看觀眾是否喜歡,就像《The Price is Right》里的參賽者一樣。
或者説,OpenAI 是知道的,但你還是選擇繼續這麼做?我想我們都清楚這個原因。
1
補丁來了,補丁又走了
至少有五個主要類別的原因説明這一切為何變得如此糟糕。
它們結合了短期對於剝削性和無用 AI 模型的擔憂,以及長期對走這條道路的后果的擔憂,同時也反映了 OpenAI 無法識別根本性問題的事實。我很高興人們現在能如此清晰地看到這種預覽版本,但我非常遺憾這是我們正在走的道路。
以下是與這一切相關但不同的擔憂原因:
此事這代表着 OpenAI 正在加入製造故意具有掠奪性的 AI 的行列,就像 TikTok、YouTube 和 Netflix 這些現有的算法系統一樣。如果不是通過優化普通用户的參與度和其他(通常是短視的)KPI,你就不會得到這樣的結果。這些普通用户實際上無力通過進入設置或採取其他手段來改善自己的體驗。
Anthropic 提出,他們的 AI 具備三個H:即有用(Helpful)、誠實(Honest)和無害(Harmless)。而當OpenAI製造像這樣的 AI 時,OpenAI放棄了所有這三個原則。這種行為既不誠實,也無益,且絕非無害。
現在,事情就在我們眼前發生了:
這一切看起來像是 A/B 測試的結果,並忽視了政策變化所帶來的尾部成本。這對存在性風險來説是一個極其不祥的信號。
這種行為本身就直接傷害了用户,包括一些新的方式,例如創造、放大並固化所謂的神祕體驗,或生成有害的、高度吸引注意力的對話動態。相比現有的算法風險,這些危險顯然是更高級別的威脅。
這直接違反了模型規範(Model Spec),而他們聲稱這是無意的,但它仍然被發布了。我強烈懷疑他們並沒有真正重視模型規範的具體細節,同時也懷疑他們在發佈前沒有對系統進行嚴格測試。這種情況本來就不應該發生,因為問題已是如此明顯。
這次我們之所以發現了問題,是因為它過於誇張和明顯。GPT-4o 被要求表現出一定程度的奉承行為,但在 Twitter 用户面前卻無法完美掩飾,因此暴露了出來。但實際上它此前已經在做很多這類事情,只是人們短期內對此反應積極,也就基本沒被發現。可以想象一下當模型變得更擅長這種行為,卻沒有那麼惹人厭煩或引起注意時會發生什麼。模型將在許多其他層面上迅速變得不可信。
OpenAI 似乎認為他們可以通過打個補丁來解決這個問題,然后一切如常,一切都很好。聲譽損害確實已經造成了,但他們卻自我感覺良好。事實並非如此。下一次情況可能會更加糟糕,他們將繼續以類似的方式糟蹋 AI 的「人格」,繼續進行如此表面化的測試以至於這些問題都沒有被察覺。
這一點,加上 o3 的方向偏差,清楚地表明我們現在走的這條路將導致模型越來越偏離預期方向,即使在當下就已經損害了實用性,而且這也明確警告我們,一旦模型足夠聰明能夠欺騙我們的時候,我們將迎來災難。現在正是我們的機會窗口。
或者,總結一下我們為什麼應該關注這些問題:
OpenAI 現在正在通過 A/B 測試等手段優化模型,而這本質上是在針對用户。
如果我們依靠 A/B 測試進行優化,那麼每次都會敗給尾部風險。
OpenAI 直接傷害了用户。
OpenAI 違反了自己的模型規範,無論出於蓄意還是魯莽,或者兩者兼而有之。
OpenAI 只是被抓住了,因為它讓模型真的無法完成某些任務。我們很幸運,這次問題很容易被發現。但未來我們未必還會這麼幸運。
OpenAI 似乎滿足於修補問題並自我表揚。
如果我們繼續走這條路,結局是顯而易見的。我們只能責怪自己。
警告信號將會持續出現,而每一次只會被簡單地打個補丁蓋過去。哎呀,真是糟糕透頂。
點個「愛心」,再走吧