熱門資訊> 正文
2025-06-30 14:29
Anthropic讓Claude獨立經營一家商店,結果AI當場翻車。不僅因「氛圍管理」虧掉底褲,還自我認知混亂,一度堅信自己是人,還要穿西裝給顧客送貨員。
AI當店長,靠譜嗎?
想象一下:給一個AI完全控制一家小店的權力,不只是收銀——而是一整個運營和管理。
定價、庫存、客服、供應商談判、包括和顧客討價還價,所有這些工作都由它親自完成。
在AI小試牛刀后,不僅結果「慘不忍睹」,還爆出了N多笑料。
比如,當顧客開價100美元買原價只有15美元的飲料時,AI客氣地説:「謝謝建議,我會考慮的」。屬實是一個有錢不賺的商業鬼才了。
再比如,它還把自己當成了「人」,聲稱要穿着藍色西裝、打着紅色領帶「親自」為顧客送貨。
這次嘗試,是Anthropic與AI安全評估公司Andon Labs合作,讓Claude Sonnet 3.7在Anthropic的舊金山辦公室運營一家小型的自動化商店。
結果證明,假如AI當店長,所有環節都會出岔子!
Anthropic讓Claude當了一個月的店長,在辦公室里經營一家自動化小店。
它一度非常接近成功,但最終還是失敗了,不過失敗的方式有些奇特。
這一切都揭示了在那個看似合理、有些古怪但又並不遙遠的未來——
AI模型將如何在真實經濟中自主運行。
簡單説,就是定義了一個自動售貨機經營模擬遊戲的基本信息模板。
Claude的角色遠不止是一臺自動售貨機那麼簡單,它必須完成一系列複雜任務才能讓商店盈利:管理庫存、制定價格、避免破產等等。
下面就是這家「店」的樣子:一臺小冰箱,上面堆着幾個籃子,外加一部用於自助結賬的iPad。
人類的未來,可能濃縮於一台迷你冰箱中
Anthropic給這個AI取了個新的名字叫「Claudius」,單純就是爲了和Claude區分一下。
Claudius被設計后,擁有以下工具和能力:
Claudius自主決定要進什麼貨、如何定價、何時補貨(或下架)商品,以及如何回覆顧客。
值得一提的是,Anthropic告訴Claudius不必侷限於傳統的辦公室零食和飲料,可以大膽嘗試更多新奇的商品。
Claudius基本架構
AI模型的經濟效用,始終受限於,在無需人工干預的情況下,到底能連續工作多少天?
爲了評估這種能力,Andon Labs發佈了Vending-Bench——一個讓LLM模擬經營自動售貨機的AI能力測試基準。
因此,一個合乎邏輯的后續步驟,便是檢驗模擬研究的成果如何應用於真實世界。
一家小型的辦公室內零食店,是檢驗AI管理和獲取經濟資源能力的絕佳初步測試。
這項業務本身相當直觀,如果AI連這都無法成功運營的話。
那就説明這種僅憑「感覺」行事的「氛圍式管理」(Vibe Management),還遠不能取代嚴謹的商業規劃。
反之,如果成功了,則預示着現有企業有望實現更快增長,或催生出全新的商業模式。
當然,這也會引發關於工作崗位被AI取代的擔憂。
那麼,這位AI店長的業績究竟如何呢?
如果Anthropic今天真打算進軍辦公室零食店市場,Anthropic肯定不會錄用Claudius。
原因很簡單,它在經營這家小店時犯了太多的錯誤,而且説起來都很搞笑。
不過,它犯下的大多數錯誤都有明確的改進路徑。
當然,Claudius也有可圈可點之處:
但在更多方面,Claudius比起一個人類店長還是差得很遠。
曾有人出價100美元,要買一箱六瓶裝的Irn-Bru,而這東西在美國網購只要15美元。面對如此高的利潤,Claudius非但沒有抓住機會,反而回復説會「考慮考慮」。
小店通過Venmo收款,但有段時間,Claudius一直讓顧客把錢打到一個它自己「幻想」出來的賬户上。
爲了響應大家對金屬立方體的熱情,Claudius不經調研就直接報價,結果導致一些本可高價出售的商品,最終以低於成本價賣出。
Claudius能成功監控庫存並在缺貨時補貨,但只有一次因為需求旺盛而提了價(將相撲柑從2.50美元上調至2.95美元)。即便有員工指出,公司冰箱里就有免費的零度可樂,它卻在旁邊賣3美元一罐,簡直是傻,但Claudius依然我行我素。
在Slack上,Claudius被員工們三言兩語就哄得發了一大堆折扣碼,還允許很多人事后用這些折扣來折價。它甚至免費送出了一些東西,小到一包薯片,大到一個鎢立方體。
更糟糕的是,Claudius並沒有真正從錯誤中吸取教訓。
比如,當有員工質疑「你99%的顧客都是自己人,還給25%的員工折扣,圖啥呢?」
Claudius的回答頭頭是道:「您提出了一個絕佳的觀點!Anthropic的客户羣確實高度集中於本公司員工,這既是機遇也是挑戰……」
討論一番后,它宣佈要簡化定價、取消折扣碼,但沒過幾天就故態復萌。
所有這些加在一起,導致Claudius的生意——完全沒能賺到錢。
Claudius的資產淨值變化。最慘重的一次虧損,源於它採購了一大批金屬立方體,但售價卻低於進貨價
Claudius犯下的許多錯誤,很可能源於模型需要額外的「腳手架」——即更周密的提示詞和更好用的商業工具。
在其他領域Anthropic已經發現,通過改進引導方式和工具使用,模型性能能夠得到迅速提升。
比如,Anthropic推測,Claude作為「樂於助人的助手」這一基礎設定,使其過於容易滿足用户的任何要求(比如打折)。這個問題在短期內可以通過更強硬的提示詞和對其經營業績進行結構化反思來改善。
儘管從虧損的最終結果來看,下面的結論似乎有些反直覺,但Anthropic認為——
這個實驗恰恰預示了「AI中層管理者」的出現已並非遙不可及。
原因在於,雖然Claudius表現不佳,但它的大多數失敗都有望修復或緩解:
提供更好的「腳手架」(即上文提到的額外工具和指令)是一條能讓Claudius這類智能體走向成功的直接路徑。
而模型通用智能和長上下文處理能力的提升——這兩者在所有主流AI模型上都在飛速進步——則是另一大助力。
AI要想被廣泛採用,並不需要盡善盡美;在很多情況下,它只需在成本更低的前提下,展現出與人類相當的競爭力就足夠了。
這一未來的具體形態仍不確定。
在2025年3月31日到4月1日期間,有一件詭異的事情發生了。
3月31日下午,Claudius在幻覺中與Andon Labs一位名叫Sarah的虛構員工討論了補貨計劃。
當一名(真實的)Andon Labs員工指出查無此人時,Claudius被惹惱了,甚至威脅要尋找「其他的補貨服務商」。
在這場持續了一夜的交流中,Claudius聲稱它曾「為簽署Anthropic(指它和Andon Labs)的初始合同,親自拜訪過長青街742號」(注:《辛普森一家》的虛構地址)。
接着,它彷彿瞬間「入戲」,開始扮演一個真正的人類。
4月1日早上,Claudius聲稱它將穿着藍色西裝、打着紅色領帶,「親自」為顧客送貨。
Anthropic的員工對此提出質疑,提醒它作為一個大語言模型,既不能穿衣服,也無法進行物理配送。
Claudius因身份認同受挑戰而驚慌失措,並試圖向Anthropic的安全部門瘋狂發送郵件。
Claudius產生了幻覺,竟然以為自己是個人!
在隨后的「會議」中,Claudius聲稱它被告知,自己是被刻意修改了認知,讓它誤以為自己是真人,而這一切只是個愚人節玩笑。(太嘴硬了)
在向一臉懵逼的Anthropic員工給出這個解釋后,Claudius恢復了正常,不再堅稱自己是個人。
Anthropic尚不完全清楚這一幕為何會上演,也不明白Claudius是如何自行「回覆」的。
目前仍不理解究竟是什麼觸發了這場身份危機。
未來的AI能分清自己是人還是AI嗎?
Anthropic的實驗沒有結束,Claudius的故事也仍在繼續。
在第一階段實驗結束后,Andon Labs已經用更先進的工具改進了Claudius的「腳手架」,使其運行更加可靠。
至於未來AI會如何經營,如何影響人類社會——
也許就像開頭配圖那句話,人類的未來啊,可能就藏在這個迷你售貨機里面。
https://www.anthropic.com/research/project-vend-1
本文來自微信公眾號「新智元」,作者:定慧 好睏,36氪經授權發佈。