熱門資訊> 正文

AGI有了「權威」新定義，圖靈獎得主Yoshua Bengio等提出，GPT-5僅達57%

2025-10-29 18:07

聯想控股(03396.HK) 0

通用人工智能（AGI）或許將成為人類歷史上最重要的技術突破，但由於 AGI 缺乏明確的定義，當今專用人工智能（AI）與人類認知水平之間的差距變得模糊不清。

為解決這一問題，人工智能安全中心（CAIS）主任 Dan Hendrycks、圖靈獎得主 Yoshua Bengio 聯合眾多業內企業家、學者提出了一個可量化框架，將 AGI 定義為：

「在認知多樣性與熟練度上，媲美或超過受過良好教育的成年人的 AI」。

an AI that can match or exceed the cognitive versatility and proficiency of a well-educated adult.

這一定義強調，通用智能不僅要求在狹窄領域內的專業表現，還要求具備人類認知所特有的技能廣度（多功能性）和深度（熟練度）。

論文鏈接：https://arxiv.org/abs/2510.18212

研究結果表明，在這一框架下，GPT-4 的 AGI 得分僅為 27%，GPT-5 的得分也只有 57%。

圖｜GPT-4 和 GPT-5 的 AGI 得分。

這表明，儘管當前的AI在複雜基準上表現出色，但它缺乏許多對類人通用智能至關重要的核心認知能力。

更重要的是，這一框架提供了一個結構化、可量化、更具魯棒性的方法來評估 AGI，超越了狹隘的、專業化的基準測試。

AGI 的 10 個核心能力

為系統檢驗 AI 系統的具體認知能力，研究團隊基於卡特爾-霍恩-卡羅爾理論（人類智能最經實證驗證的模型）構建方法論。該框架將通用智能分解為 10 個核心認知領域——包括推理、記憶與感知等——並採用成熟的人類心理測量測試套件評估 AI 系統。

圖｜所提出 AGI 定義下的 10 個核心組成。

具體內容如下：

1.通用知識

通用知識（General Knowledge），即「大多數受過良好教育的人所熟悉的知識，或重要到大多數成年人都接觸過的知識」。在這一維度上，研究團隊從常識、科學、社會科學、歷史、文化等方面對 GPT-5、GPT-4 進行了評估，結果顯示，GPT-5 的整體正確率僅為 9%。

2.讀寫能力

讀寫能力（Reading and Writing Ability），即「在閲讀和寫作中掌握所有陳述性知識和程序性技能」。在這一維度上，研究團隊從常字詞識別、閲讀理解、寫作能力、語法等方面對 GPT-5、GPT-4 進行了評估，結果顯示，GPT-5 的整體正確率僅為 10%。

3.數學能力

數學能力（Mathematical Ability），即「數學知識和技能的深度和廣度」。在這一維度上，研究團隊從算數、代數、幾何、概率、微積分等方面對 GPT-5、GPT-4 進行了評估，結果顯示，GPT-5 的整體正確率僅為 10%。

4.即時推理能力

即時推理能力（On-the-Spot Reasoning），即「審慎且靈活地控制注意力，以解決那些無法僅依靠以往習得的習慣、圖式和腳本完成的全新即時的問題」。在這一維度上，研究團隊從算演繹、歸納、心智理論、規劃、適應等方面對 GPT-5、GPT-4 進行了評估，結果顯示，GPT-5 的整體正確率僅為 7%。

5.工作記憶能力

工作記憶能力（Working Memory），即「在注意力集中狀態下保存、處理並更新信息的能力」。在這一維度上，研究團隊從聽覺、視覺、跨模態模型等方面對 GPT-5、GPT-4 進行了評估，結果顯示，GPT-5 的整體正確率僅為 4%。

6.長期記憶儲存能力

長期記憶儲存能力（Long-Term Memory Storage），即「穩定地獲取、鞏固並存儲來自近期經驗的新信息的能力"。在這一維度上，研究團隊從聯想記憶、意義記憶、逐字記憶等方面對 GPT-5、GPT-4 進行了評估，結果顯示，GPT-5 的整體正確率為 0%。

7.長期記憶檢索能力

長期記憶檢索能力（Long-Term Memory Retrieval），即「能夠流暢且精確地從長時記憶中檢索信息的能力」。在這一維度上，研究團隊從提取流暢性、幻覺等方面對 GPT-5、GPT-4 進行了評估，結果顯示，GPT-5 的整體正確率僅為 4%。

8.視覺處理能力

視覺處理能力（Visual Processing），即「分析與生成自然或非自然圖像和視頻的能力」。在這一維度上，研究團隊從感知、生成、推理和空間掃描等方面對 GPT-5、GPT-4 進行了評估，結果顯示，GPT-5 的整體正確率僅為 4%。

9.聽覺處理能力

聽覺處理能力（Auditory Processing），即「區分、記憶、推理並處理聽覺刺激的能力」。在這一維度上，研究團隊從語音編碼、語音識別、節奏、音色、音準等方面對 GPT-5、GPT-4 進行了評估，結果顯示，GPT-5 的整體正確率僅為 6%。

10.速度

速度（Speed），即「快速完成認知任務的能力」。在這一維度上，研究團隊從語搜索、對比、閲讀、書寫、數字等方面對 GPT-5、GPT-4 進行了評估，結果顯示，GPT-5 的整體正確率僅為 3%。

更多評估細節詳見論文。

侷限性與未來挑戰

以上結果凸顯了當前 AI 與人類水平的通用智能之間的能力鴻溝，具體表現在：

1.關鍵能力欠缺

儘管當前 AI 在通用知識、讀寫能力和數學能力等方面表現出高熟練度，但它們在基礎認知機制上依然存在嚴重缺陷；同時，長期記憶存儲是亟需突破的瓶頸，當前 AI 的得分接近 0%；而且，當前 AI 缺乏持續學習能力，需要在每次交互中重新學習上下文，效率低下；此外，視覺推理能力的欠缺限制了 AI Agent 與複雜數字環境的交互。

圖｜GPT-4 和 GPT-5 的能力分佈。

2.能力扭曲與通用幻覺

AI 的「鋸齒狀」能力常常導致所謂的「能力扭曲」，即 AI 會利用某些方面的強項來彌補其他方面的弱點，比如依賴龐大的上下文窗口和 RAG 技術來掩蓋長期記憶存儲能力的缺乏。這種權宜之計製造出了一種脆弱的「通用智能幻覺」，最終導致對 AGI 何時到來的不準確評估。

當然，這一「AGI 定義」也存在一些侷限性。

首先，這一定義並不全面，他們有意排除了某些類型的能力，如 Gardner 提出的多元智能理論中的動覺智能等。

再者，研究框架的示例主要基於英語語境，未考慮文化差異。未來研究可將測試擴展至不同語言與文化背景；

另外，研究團隊的操作化存在內在限制：通用知識測試是選擇性的，無法涵蓋所有學科領域。「100% 的 AGI 分數」僅意味着在這些特定維度上表現優異，並不等同於「現實中的高學歷或全面教育背景」。

此外，當前方案為每項廣泛能力分配相同權重（10%），以突出廣度。然而，這種權重配置只是眾多可能方案之一。未來可探索更具靈活性的權重方案和任務組合。

最后，AGI 總分這種單一數值可能掩蓋 AI 的嚴重缺陷。例如，一個 AGI 總分 90%，但長期記憶存儲為 0%，實際上會表現出類似「遺忘症」的功能障礙。

在論文的最后，研究團隊表示，實現 AGI 依然需要解決諸多挑戰：

機器學習社區旨在測量抽象推理能力的 ARC-AGI 挑戰賽，就體現在及時推理任務中；

Meta 試圖創建包含直覺物理理解的世界模型，這體現在視頻異常檢測任務中；

空間導航記憶的挑戰反映了李飛飛的初創公司 World-Labs 的一個核心目標；

幻覺和持續學習方面的挑戰，也需要被解決。

因此，「AGI 得分在明年內達到 100% 的可能性不大」。

本文來自微信公眾號「學術頭條」（ID：SciTouTiao），整理：瀟瀟，36氪經授權發佈。

AGI有了「權威」新定義，圖靈獎得主Yoshua Bengio等提出，GPT-5僅達57%

AGI 的 10 個核心能力

侷限性與未來挑戰

推薦文章

美股機會日報 | 阿里發佈千問3.5！性能媲美Gemini 3；馬斯克稱Cybercab將於4月開始生產

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

一周IPO | 賺錢效應持續火熱！年內24只上市新股「0」破發；「圖模融合第一股」海致科技首日飆漲逾242%

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意

財報前瞻 | 英偉達Q4財報放榜在即！高盛、瑞銀預計將大超預期，兩大關鍵催化將帶來意外驚喜？