不會打遊戲的大模型不是好AI？甲骨文最強模型用《寶可夢》當「期末考」

2025-02-25 15:30

財聯社2月25日訊（編輯馬蘭）甲骨文周一發佈了其最強模型Claude 3.7 Sonnet，據甲骨文稱，該模型同時具備推理能力和傳統實時生成文本的能力，是市面上唯一的混合模型。

Claude 3.7 Sonnet的一個獨特功能是其能夠進行拓展思考，與OpenAI的o3-mini和Deepseek R1一樣，它可以在增加計算和時間成本的基礎上來推理更具挑戰性的問題。

而測試Claude 3.7 Sonnet推理能力的一項重要測試就是打遊戲。

據甲骨文周一的博客文章顯示，該公司在《精靈寶可夢（紅）》測試了Claude 3.7 Sonnet，為模型配備了基本內存、屏幕像素輸入和功能調用，以便模型可以連續闖關並不受模型的上下文限制。

好消息是，3.7版本的模型與3.0版本相比「大有出息」。上一個版本3.0連離開遊戲新手村都做不到，而3.7已經成功走到寶可夢道館Boss身前，並擊敗道館領袖贏得了徽章。

不過，甲骨文並未公佈3.7花費了多少計算能力才做到這一步，以及每闖完一關所耗費的時間。甲骨文只透露，3.7 Sonnet執行了35000次操作纔打到最后一位道館館主Surge處。

利用遊戲作為人工智能模型的基準測試實際上在業內也並不罕見，加州理工大學和英偉達的一支團隊此前就推出過Voyager組件，與GPT-4交互來攻略另一款熱門遊戲《我的世界》。

Voyager據介紹包括三個關鍵模塊：最大化探索的自動課程；用於存儲和檢索複雜行為的技能庫與生成可執行代碼的新迭代提示機制。據研究團隊介紹，Voyager表現出強大的情境學習能力，獲得的獨特物品、行近距離以及解鎖成就的速度都優於基準人工智能模型。

上周，微軟也官宣加入了AI打遊戲的潮流之中。微軟推出了一款模型Muse可以生成遊戲視覺效果和控制器輸入，稱其可以支持人們在設計遊戲時的創造力，並已經在多人競技戰鬥遊戲《Bleeding Edge》中進行訓練。

Gaming AI公司副總裁Fatima Kardar表示，Muse的突破之處在於它對3D遊戲的詳細瞭解，包括遊戲物理以及遊戲如何對玩家的控制操作做出反應。這意味着該模型能夠創建一致且多樣化的遊戲玩法，進一步幫助到遊戲創作者。