熱門資訊> 正文
2025-10-29 18:07
通用人工智能(AGI)或許將成為人類歷史上最重要的技術突破,但由於 AGI 缺乏明確的定義,當今專用人工智能(AI)與人類認知水平之間的差距變得模糊不清。
為解決這一問題,人工智能安全中心(CAIS)主任 Dan Hendrycks、圖靈獎得主 Yoshua Bengio 聯合眾多業內企業家、學者提出了一個可量化框架,將 AGI 定義為:
「在認知多樣性與熟練度上,媲美或超過受過良好教育的成年人的 AI」。
an AI that can match or exceed the cognitive versatility and proficiency of a well-educated adult.
這一定義強調,通用智能不僅要求在狹窄領域內的專業表現,還要求具備人類認知所特有的技能廣度(多功能性)和深度(熟練度)。
論文鏈接:https://arxiv.org/abs/2510.18212
研究結果表明,在這一框架下,GPT-4 的 AGI 得分僅為 27%,GPT-5 的得分也只有 57%。
圖|GPT-4 和 GPT-5 的 AGI 得分。
這表明,儘管當前的AI在複雜基準上表現出色,但它缺乏許多對類人通用智能至關重要的核心認知能力。
更重要的是,這一框架提供了一個結構化、可量化、更具魯棒性的方法來評估 AGI,超越了狹隘的、專業化的基準測試。
為系統檢驗 AI 系統的具體認知能力,研究團隊基於卡特爾-霍恩-卡羅爾理論(人類智能最經實證驗證的模型)構建方法論。該框架將通用智能分解為 10 個核心認知領域——包括推理、記憶與感知等——並採用成熟的人類心理測量測試套件評估 AI 系統。
圖|所提出 AGI 定義下的 10 個核心組成。
具體內容如下:
1.通用知識
通用知識(General Knowledge),即「大多數受過良好教育的人所熟悉的知識,或重要到大多數成年人都接觸過的知識」。在這一維度上,研究團隊從常識、科學、社會科學、歷史、文化等方面對 GPT-5、GPT-4 進行了評估,結果顯示,GPT-5 的整體正確率僅為 9%。
2.讀寫能力
讀寫能力(Reading and Writing Ability),即「在閲讀和寫作中掌握所有陳述性知識和程序性技能」。在這一維度上,研究團隊從常字詞識別、閲讀理解、寫作能力、語法等方面對 GPT-5、GPT-4 進行了評估,結果顯示,GPT-5 的整體正確率僅為 10%。
3.數學能力
數學能力(Mathematical Ability),即「數學知識和技能的深度和廣度」。在這一維度上,研究團隊從算數、代數、幾何、概率、微積分等方面對 GPT-5、GPT-4 進行了評估,結果顯示,GPT-5 的整體正確率僅為 10%。
4.即時推理能力
即時推理能力(On-the-Spot Reasoning),即「審慎且靈活地控制注意力,以解決那些無法僅依靠以往習得的習慣、圖式和腳本完成的全新即時的問題」。在這一維度上,研究團隊從算演繹、歸納、心智理論、規劃、適應等方面對 GPT-5、GPT-4 進行了評估,結果顯示,GPT-5 的整體正確率僅為 7%。
5.工作記憶能力
工作記憶能力(Working Memory),即「在注意力集中狀態下保存、處理並更新信息的能力」。在這一維度上,研究團隊從聽覺、視覺、跨模態模型等方面對 GPT-5、GPT-4 進行了評估,結果顯示,GPT-5 的整體正確率僅為 4%。
6.長期記憶儲存能力
長期記憶儲存能力(Long-Term Memory Storage),即「穩定地獲取、鞏固並存儲來自近期經驗的新信息的能力"。在這一維度上,研究團隊從聯想記憶、意義記憶、逐字記憶等方面對 GPT-5、GPT-4 進行了評估,結果顯示,GPT-5 的整體正確率為 0%。
7.長期記憶檢索能力
長期記憶檢索能力(Long-Term Memory Retrieval),即「能夠流暢且精確地從長時記憶中檢索信息的能力」。在這一維度上,研究團隊從提取流暢性、幻覺等方面對 GPT-5、GPT-4 進行了評估,結果顯示,GPT-5 的整體正確率僅為 4%。
8.視覺處理能力
視覺處理能力(Visual Processing),即「分析與生成自然或非自然圖像和視頻的能力」。在這一維度上,研究團隊從感知、生成、推理和空間掃描等方面對 GPT-5、GPT-4 進行了評估,結果顯示,GPT-5 的整體正確率僅為 4%。
9.聽覺處理能力
聽覺處理能力(Auditory Processing),即「區分、記憶、推理並處理聽覺刺激的能力」。在這一維度上,研究團隊從語音編碼、語音識別、節奏、音色、音準等方面對 GPT-5、GPT-4 進行了評估,結果顯示,GPT-5 的整體正確率僅為 6%。
10.速度
速度(Speed),即「快速完成認知任務的能力」。在這一維度上,研究團隊從語搜索、對比、閲讀、書寫、數字等方面對 GPT-5、GPT-4 進行了評估,結果顯示,GPT-5 的整體正確率僅為 3%。
更多評估細節詳見論文。
以上結果凸顯了當前 AI 與人類水平的通用智能之間的能力鴻溝,具體表現在:
1.關鍵能力欠缺
儘管當前 AI 在通用知識、讀寫能力和數學能力等方面表現出高熟練度,但它們在基礎認知機制上依然存在嚴重缺陷;同時,長期記憶存儲是亟需突破的瓶頸,當前 AI 的得分接近 0%;而且,當前 AI 缺乏持續學習能力,需要在每次交互中重新學習上下文,效率低下;此外,視覺推理能力的欠缺限制了 AI Agent 與複雜數字環境的交互。
圖|GPT-4 和 GPT-5 的能力分佈。
2.能力扭曲與通用幻覺
AI 的「鋸齒狀」能力常常導致所謂的「能力扭曲」,即 AI 會利用某些方面的強項來彌補其他方面的弱點,比如依賴龐大的上下文窗口和 RAG 技術來掩蓋長期記憶存儲能力的缺乏。這種權宜之計製造出了一種脆弱的「通用智能幻覺」,最終導致對 AGI 何時到來的不準確評估。
當然,這一「AGI 定義」也存在一些侷限性。
首先,這一定義並不全面,他們有意排除了某些類型的能力,如 Gardner 提出的多元智能理論中的動覺智能等。
再者,研究框架的示例主要基於英語語境,未考慮文化差異。未來研究可將測試擴展至不同語言與文化背景;
另外,研究團隊的操作化存在內在限制:通用知識測試是選擇性的,無法涵蓋所有學科領域。「100% 的 AGI 分數」僅意味着在這些特定維度上表現優異,並不等同於「現實中的高學歷或全面教育背景」。
此外,當前方案為每項廣泛能力分配相同權重(10%),以突出廣度。然而,這種權重配置只是眾多可能方案之一。未來可探索更具靈活性的權重方案和任務組合。
最后,AGI 總分這種單一數值可能掩蓋 AI 的嚴重缺陷。例如,一個 AGI 總分 90%,但長期記憶存儲為 0%,實際上會表現出類似「遺忘症」的功能障礙。
在論文的最后,研究團隊表示,實現 AGI 依然需要解決諸多挑戰:
機器學習社區旨在測量抽象推理能力的 ARC-AGI 挑戰賽,就體現在及時推理任務中;
Meta 試圖創建包含直覺物理理解的世界模型,這體現在視頻異常檢測任務中;
空間導航記憶的挑戰反映了李飛飛的初創公司 World-Labs 的一個核心目標;
幻覺和持續學習方面的挑戰,也需要被解決。
因此,「AGI 得分在明年內達到 100% 的可能性不大」。
本文來自微信公眾號 「學術頭條」(ID:SciTouTiao),整理:瀟瀟 ,36氪經授權發佈。