繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

o3通關「俄羅斯方塊」,碾壓Gemini奪冠,UCSD新基準擊碎寶可夢

2025-07-01 15:23

【導讀】UCSD等推出Lmgame Bench標準框架,結合多款經典遊戲,分模塊測評模型的感知、記憶與推理表現。結果顯示,不同模型在各遊戲中表現迥異,凸顯遊戲作為AI評估工具的獨特價值。

誰能想到,作為童年回憶的寶可夢,現在竟搖身一變,成了大模型的試金石!

在無數人的童年記憶中,《寶可夢》是一款意義非凡的遊戲——簡單的操作哪怕是年紀尚小的孩子也能輕松上手。

然而,要真正通關這款遊戲,仍然需要縝密的規劃和大量的時間投入。

如今,這款承載童年回憶的遊戲,已悄然成為各大科技公司測試最新LLM的「香餑餑」。

從Anthropic到Google,從Claude到Gemini,各家模型紛紛亮出「通關寶可夢」的戰績作為展示推理、規劃與長期記憶能力的證據。

而且通關后,谷歌的CEO劈柴都要親自發帖來慶祝。

真的令人好奇,都2025年了,為何AI通關《寶可夢》就成了個大新聞?

更何況,寶可夢最早的發售是1995年,30年前的遊戲為何成爲了檢驗最新AI頂級模型的試金石?

這是因為最先進的AI也不一定擁有人類幼兒的感知和行動能力。

莫拉維克悖論

在LLM還未出現的1980年代,早期的人工智能似乎已經開始展現「智慧」。

人工智能的先驅漢斯·莫拉維克、羅德尼·布魯克斯、馬文·閔斯基等人發現一個悖論。

要讓電腦如成人般地下棋是相對容易的,但是要讓電腦有如一歲小孩般的感知和行動能力卻是相當困難甚至是不可能的。

語言學家和認知科學家史迪芬·平克認為這是人工智能學者的最重要發現。經過35年人工智能的研究,他發現最重要的課題是:

困難的問題是易解的,簡單的問題是難解的。

四歲小孩具有的本能——辨識人臉、舉起鉛筆、在房間內走動、回答問題——事實上卻是工程領域內目前為止最難解的問題。

當新一代的AI出現后,股票分析師、石化工程師都要小心他們的位置被取代,但是園丁、接待員和廚師至少十年內都不用擔心被人工智能所取代。

這也是目前所有頂級模型都希望通過寶可夢遊戲證明的——目前的LLM到底有沒有感知能力?

Claude Opus 4還在直播玩寶可夢,已經繼續了12萬+步

寶可夢作為評測基準,合理嗎?

寶可夢被越來越多地用於評估現代大型語言模型,但存在一個很大的問題——目前的挑戰都缺乏標準化。

Anthropic為Cladue模型提供了導航和讀取遊戲狀態內存的工具。

該模型進行了幾場道館對戰,大約執行了35,000個遊戲內動作纔到達電系道館首領。

但Anthropic並未詳細説明什麼具體算作一個「動作」,也未説明允許多少次重試。

Google的Gemini 2.5 Pro已經完成了《寶可夢 藍》(並在《寶可夢 紅》中獲得了第五個徽章)。

然而,它依賴額外的外部代碼來提取更全面的遊戲狀態文本表示並指導決策。

並且運行完成遊戲需要大量的時間,僅獲得第五個徽章,就需要超過500個小時。

同時API的使用會產生大量費用。

如何才能將大模型最愛玩的《寶可夢》遊戲轉化為標準化評估框架,甚至是多種遊戲的評估框架?

這就是今天介紹的Lmgame Bench,它精心選取了一批難度適中的遊戲,並提供了分層測試機制,更適合衡量大模型的真實能力。

博客地址:https://lmgame.org/#/blog/pokemon_red

該測試基準由UCSD等重磅出品,研究瞭如何使用流行的視頻遊戲來評估現代LLM。

論文地址:https://arxiv.org/pdf/2505.15146

Lmgame基準測試

Lmgame Bench使用模塊化測試框架——如感知、記憶和推理模塊——系統地擴展模型的遊戲能力。

這些測試框架使模型能夠通過迭代交互循環與模擬遊戲環境進行交互。

Lmgame-Bench採用了一種標準化的提示優化技術,以降低對提示的敏感性。

爲了在沒有任何外部定製遊戲「腳手架」的情況下區分模型能力,Lmgame Bench精選了一系列中等難度的視頻遊戲。

這些遊戲包括:

推箱子:得分計算方式為所有關卡中推到目標位置的箱子總數,統計範圍從非常簡單的關卡一直到Sokoban 1989中最難的關卡,直到出現第一個死局為止。

超級馬里奧兄弟:分數是馬里奧在所有關卡中累計的橫向移動距離(遊戲單位),直到失去全部三條生命或完成最終關卡為止。具備更強物理直覺和空間推理能力的模型通常能夠獲得更高的分數。

俄羅斯方塊:分數是已註冊的總方塊數加上消除的總行數(乘以10倍係數),計算至遊戲結束為止。不同的模型持續遊戲的時間各不相同,這取決於它們高效處理下落方塊的能力。例如,o3-pro能夠有效清除超過10行,從而持續保持遊戲進行。

2048:合併方塊值的總和(例如,合併兩個2會獲得+4),記錄直到棋盤停滯(連續十次回合沒有合併或改變棋盤的移動)。然后我們會報告它們的總得分。由於遊戲可以持續超過10萬步,這為區分模型在較長時間範圍內的能力提供了強有力的依據。

糖果消除:在固定的50步會話中消除的糖果總數。儘管遊戲相對簡單,但它能有效區分模型在優化移動步驟和清除糖果方面的能力。

逆轉裁判:在所有案件關卡中正確操作(提交證據、對話選擇等)的總次數,直到用盡五次錯誤決定機會(生命值)。此遊戲用於評估模型的上下文理解和推理能力。

模塊設計

許多模型在視覺理解上存在脆弱性,導致對遊戲狀態頻繁誤判。

想要在遊戲中取得成功,需要有效的記憶機制來實現長期決策。

Lmgame針對性的開發了三大模塊。

感知模塊:將原始遊戲幀或UI元素轉換為結構化的符號/文本狀態描述,減少對脆弱視覺的依賴。

內存模塊:存儲最近的狀態、動作和反思筆記,以縮小動作空間並支持長期規劃。

推理模塊:綜合所有其他模塊的信息,並可選地開啟長鏈式思維推理。

o3玩2048的記憶模塊展示

Gym風格標準接口

不過研究人員發現,使用計算機直接操作智能體進行基準測試存在重大缺陷。

每款遊戲都對計算機的操作要求不同,依賴基於屏幕截圖的觀測容易出現感知錯誤。

並且在對延迟敏感的的遊戲中存在不可預測的延迟,這些問題都削弱了測試結果的一致性和可比性。

為此研究團隊實現了一個採用Gym風格API的新標準化接口,來統一評估設置。

結合輕量級的感知與記憶輔助模塊設計,穩定提示帶來的差異並消除數據污染。

在13個領先模型上的實驗表明,Lmgame-Bench具有挑戰性,同時仍能有效區分不同模型。

排行榜前列由o3佔據,這款模型以其強大的視覺感知、空間推理和長視野規劃能力而著稱。

不過令人意外的是,o3雖然完全拿下了2048、推箱子和俄羅斯方塊,但是在糖果消除中遠遠落后。

現在,藉助Lmgame提供的開源代碼,任何人都可以通過一條命令為任何受支持的模型-遊戲組合啟動評估。

近期所有模型的進步表明,在數學和編程任務重,整合強化學習可以顯著增強LLMs的推理能力。

即使是最簡單的RL算法也能改善模型的規劃和決策能力,這種能力在與複雜環境互動時顯得尤為重要。

這些進展凸顯了遊戲環境作為評估LLMs的有效基準作用。

過去那些經典的遊戲經過精心的設計,用來挑戰人類的思維和認知能力。

同樣地,這些遊戲是極具價值但尚未被充分利用的AI基準測試資源。

同時,在經典遊戲之外,我們現在還有眾多的3A大作,可以預見,未來的評估體系將具有高度可擴展的發展路徑。

Lmgame Bench的誕生,正是在這個背景下給出答案:真正的智能不僅要能寫代碼、做數學題,更要能在複雜、開放、動態的環境中持續思考、規劃並行動。

而這場測試,還遠未結束。

參考資料

https://lmgame.org/#/blog/pokemon_red 

https://x.com/haoailab/status/1939777711502946544 

本文來自微信公眾號「新智元」,編輯:定慧 ,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。