繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

AGI有了「權威」新定義,圖靈獎得主Yoshua Bengio等提出,GPT-5僅達57%

2025-10-29 18:07

通用人工智能(AGI)或許將成為人類歷史上最重要的技術突破,但由於 AGI 缺乏明確的定義,當今專用人工智能(AI)與人類認知水平之間的差距變得模糊不清。

為解決這一問題,人工智能安全中心(CAIS)主任 Dan Hendrycks、圖靈獎得主 Yoshua Bengio 聯合眾多業內企業家、學者提出了一個可量化框架,將 AGI 定義為:

在認知多樣性與熟練度上,媲美或超過受過良好教育的成年人的 AI」。

an AI that can match or exceed the cognitive versatility and proficiency of a well-educated adult.

這一定義強調,通用智能不僅要求在狹窄領域內的專業表現,還要求具備人類認知所特有的技能廣度(多功能性)深度(熟練度)

論文鏈接:https://arxiv.org/abs/2510.18212

研究結果表明,在這一框架下,GPT-4 的 AGI 得分僅為 27%,GPT-5 的得分也只有 57%

圖|GPT-4 和 GPT-5 的 AGI 得分。

這表明,儘管當前的AI在複雜基準上表現出色,但它缺乏許多對類人通用智能至關重要的核心認知能力。

更重要的是,這一框架提供了一個結構化、可量化、更具魯棒性的方法來評估 AGI,超越了狹隘的、專業化的基準測試

AGI 的 10 個核心能力

為系統檢驗 AI 系統的具體認知能力,研究團隊基於卡特爾-霍恩-卡羅爾理論(人類智能最經實證驗證的模型)構建方法論。該框架將通用智能分解為 10 個核心認知領域——包括推理、記憶與感知等——並採用成熟的人類心理測量測試套件評估 AI 系統。

圖|所提出 AGI 定義下的 10 個核心組成。

具體內容如下:

1.通用知識

通用知識(General Knowledge),即「大多數受過良好教育的人所熟悉的知識,或重要到大多數成年人都接觸過的知識」。在這一維度上,研究團隊從常識、科學、社會科學、歷史、文化等方面對 GPT-5、GPT-4 進行了評估,結果顯示,GPT-5 的整體正確率僅為 9%。

2.讀寫能力

讀寫能力(Reading and Writing Ability),即「在閲讀和寫作中掌握所有陳述性知識和程序性技能」。在這一維度上,研究團隊從常字詞識別、閲讀理解、寫作能力、語法等方面對 GPT-5、GPT-4 進行了評估,結果顯示,GPT-5 的整體正確率僅為 10%。

3.數學能力

數學能力(Mathematical Ability),即「數學知識和技能的深度和廣度」。在這一維度上,研究團隊從算數、代數、幾何、概率、微積分等方面對 GPT-5、GPT-4 進行了評估,結果顯示,GPT-5 的整體正確率僅為 10%。

4.即時推理能力

即時推理能力(On-the-Spot Reasoning),即「審慎且靈活地控制注意力,以解決那些無法僅依靠以往習得的習慣、圖式和腳本完成的全新即時的問題」。在這一維度上,研究團隊從算演繹、歸納、心智理論、規劃、適應等方面對 GPT-5、GPT-4 進行了評估,結果顯示,GPT-5 的整體正確率僅為 7%。

5.工作記憶能力

工作記憶能力(Working Memory),即「在注意力集中狀態下保存、處理並更新信息的能力」。在這一維度上,研究團隊從聽覺、視覺、跨模態模型等方面對 GPT-5、GPT-4 進行了評估,結果顯示,GPT-5 的整體正確率僅為 4%。

6.長期記憶儲存能力

長期記憶儲存能力(Long-Term Memory Storage),即「穩定地獲取、鞏固並存儲來自近期經驗的新信息的能力"。在這一維度上,研究團隊從聯想記憶、意義記憶、逐字記憶等方面對 GPT-5、GPT-4 進行了評估,結果顯示,GPT-5 的整體正確率為 0%。

7.長期記憶檢索能力

長期記憶檢索能力(Long-Term Memory Retrieval),即「能夠流暢且精確地從長時記憶中檢索信息的能力」。在這一維度上,研究團隊從提取流暢性、幻覺等方面對 GPT-5、GPT-4 進行了評估,結果顯示,GPT-5 的整體正確率僅為 4%。

8.視覺處理能力

視覺處理能力(Visual Processing),即「分析與生成自然或非自然圖像和視頻的能力」。在這一維度上,研究團隊從感知、生成、推理和空間掃描等方面對 GPT-5、GPT-4 進行了評估,結果顯示,GPT-5 的整體正確率僅為 4%。

9.聽覺處理能力

聽覺處理能力(Auditory Processing),即「區分、記憶、推理並處理聽覺刺激的能力」。在這一維度上,研究團隊從語音編碼、語音識別、節奏、音色、音準等方面對 GPT-5、GPT-4 進行了評估,結果顯示,GPT-5 的整體正確率僅為 6%。

10.速度

速度(Speed),即「快速完成認知任務的能力」。在這一維度上,研究團隊從語搜索、對比、閲讀、書寫、數字等方面對 GPT-5、GPT-4 進行了評估,結果顯示,GPT-5 的整體正確率僅為 3%。

更多評估細節詳見論文。

侷限性與未來挑戰

以上結果凸顯了當前 AI 與人類水平的通用智能之間的能力鴻溝,具體表現在:

1.關鍵能力欠缺

儘管當前 AI 在通用知識、讀寫能力和數學能力等方面表現出高熟練度,但它們在基礎認知機制上依然存在嚴重缺陷;同時,長期記憶存儲是亟需突破的瓶頸,當前 AI 的得分接近 0%;而且,當前 AI 缺乏持續學習能力,需要在每次交互中重新學習上下文,效率低下;此外,視覺推理能力的欠缺限制了 AI Agent 與複雜數字環境的交互。

圖|GPT-4 和 GPT-5 的能力分佈。

2.能力扭曲與通用幻覺

AI 的「鋸齒狀」能力常常導致所謂的「能力扭曲」,即 AI 會利用某些方面的強項來彌補其他方面的弱點,比如依賴龐大的上下文窗口和 RAG 技術來掩蓋長期記憶存儲能力的缺乏。這種權宜之計製造出了一種脆弱的「通用智能幻覺」,最終導致對 AGI 何時到來的不準確評估。

當然,這一「AGI 定義」也存在一些侷限性。

首先,這一定義並不全面,他們有意排除了某些類型的能力,如 Gardner 提出的多元智能理論中的動覺智能等。

再者,研究框架的示例主要基於英語語境,未考慮文化差異。未來研究可將測試擴展至不同語言與文化背景;

另外,研究團隊的操作化存在內在限制:通用知識測試是選擇性的,無法涵蓋所有學科領域。「100% 的 AGI 分數」僅意味着在這些特定維度上表現優異,並不等同於「現實中的高學歷或全面教育背景」。

此外,當前方案為每項廣泛能力分配相同權重(10%),以突出廣度。然而,這種權重配置只是眾多可能方案之一。未來可探索更具靈活性的權重方案和任務組合。

最后,AGI 總分這種單一數值可能掩蓋 AI 的嚴重缺陷。例如,一個 AGI 總分 90%,但長期記憶存儲為 0%,實際上會表現出類似「遺忘症」的功能障礙。

在論文的最后,研究團隊表示,實現 AGI 依然需要解決諸多挑戰

機器學習社區旨在測量抽象推理能力的 ARC-AGI 挑戰賽,就體現在及時推理任務中;

Meta 試圖創建包含直覺物理理解的世界模型,這體現在視頻異常檢測任務中;

空間導航記憶的挑戰反映了李飛飛的初創公司 World-Labs 的一個核心目標;

幻覺和持續學習方面的挑戰,也需要被解決。

因此,「AGI 得分在明年內達到 100% 的可能性不大」

本文來自微信公眾號 「學術頭條」(ID:SciTouTiao),整理:瀟瀟 ,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。