繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

OpenAI正式發佈o3:通往AGI的路上,已經沒有了任何阻礙

2024-12-21 10:54

  本文來源:數字生命卡茲克,原文標題:《OpenAI正式發佈o3 - 通往AGI的路上,已經沒有了任何阻礙》

  o3的能力,對現在所有模型,幾乎都直接是降維打擊。

  今天凌晨2點,OpenAI的12天直播,終於來到了最終章。

  奧特曼,也在一片聖誕的氣息中終於迴歸。

  為大家帶來了最后的壓軸大戲。

OpenAI o3

  又一次超羣,又一次把模型的能力,推到了新的高度。

  也向全世界證明了,OpenAI,依然在鐵王座上牢不可摧。

  我也想起了OpenAI研究員在發佈o1之前的那句話:

「我們通往AGI的路上,已經沒有任何阻礙了」

  之所以OpenAI直接發佈o3沒有o2,原因也挺簡單的。

  因為跟英國電信服務提供商O2可能存在版權或商標衝突,所以直接跳過了。。。

  直接到o3。

  而OpenAI直播一完,X上基本就沸騰了。

  o3的能力,對現在所有模型,幾乎都直接是降維打擊。

  看下o3的能力吧。

  一些粗的評測集簡單過一下。

  左邊的是軟件工程考試(SWE-Bench Verified),這就像是一個考寫程序的考試,比如你寫一個軟件要它快速、準確,還不能有 bug(小錯誤)。這是考察 o3 是否能像一流的軟件工程師一樣寫出完美的代碼。

  o3 的成績:71.7%,比o1還強了不少。

  右邊的那個基準比較猛,Codeforces,一個全球著名的編碼競賽平臺。

  o3的得分是2727,這個得分,相當於整個榜單的第175名,已經超越了99.99%的人類了。

  o1的代碼能力已經強到爆炸了,而o3,又向AGI的山頂,前進了一大步。

  數學競賽AIEM 2024和博士級科學考試GPQA Diamond。

  AIEM 2024接近滿分,如果我沒記錯的話,這應該也是第一次AI能達到有AIEM接近滿分的水平。

  博士級科學考試有進化,但沒數學和編程進化的這麼猛。

  接下來的這個數學基準比較有趣一點。

  FrontierMath,Epoch AI 開發的一個數學基準測試,由60多位頂尖數學家的合作開發,旨在評估人工智能在高級數學推理方面的能力。

  而且爲了避免數據污染,所有的題目都是原創的且從來沒有發佈過的新題目。

  之前GPT-4 和 Gemini 1.5 Pro這種模型去評估的時候,成功功率不足2%,與其他傳統數學基準(如 GSM-8K 和 MATH)中超過90%的成功率形成鮮明對比。

  而這一次,o3直接達到了25.2

  當各大其他模型都還在卷傳統數學基準的時候,o3真的已經進入了另一個世界了。。。

  就像大家還在大斗師階段互相卷,你是五星大斗師,我是八星大斗師。

  兩者爭論不休,正準備要比試比試,忽然就看到一個鬥宗強者踏空而行,留下一地的卧槽。

  這還比個鬼。

  然后,就是我覺得,整個基準里,最有趣的一個基準了:

ARC-AGI。

  先説説這是個啥玩意。

  ARC-AGI於2019年首次提出,旨在通過一系列抽象和推理任務來測試AI系統的能力。

  主要是因為傳統的技能測量方法並不能有效代表智能,因為它們往往依賴於先前知識和經驗,而真正的智能應體現在廣泛的適應能力和通用性上。

  所以,ARC-AGI誕生了,里面的這些任務要求AI識別模式並解決新問題,每個任務由輸入輸出示例組成。這些任務以網格形式呈現,每個方塊可以是十種顏色中的一種,網格的大小可以從1x1到30x30不等。參與者需要根據給定的輸入生成正確的輸出,測試其推理和抽象能力。

  可以簡單的理解成,找規律。

  大概就是這樣的。

  非常的難且抽象。

  過去幾代模型的評分在此:

  * GPT-2 (2019): 0%

  * GPT-3 (2020): 0%

  * GPT-4 (2023): 2%

  * GPT-4o (2024): 5%

  * o1-preview (2024): 21%

  * o1 (2024): 32%

  * o1 Pro (2024): ~50%

  但是今天,o3的分數,達到了恐怖的87.5%。

  從0%到5%,整整花了5年的時間,而如今,從5%到87.5%,僅僅只花了半年。

  而對應的,人類的閾值分數,是85%。

  我們通往AGI的路上,已經沒有任何阻礙了。

  不過o3強歸強,但是又是一個期貨,OpenAI目前只對紅隊開放,如果是巨佬的話,可以去申請試試。

  目前不知道o3什麼時候放出,但是OpenAI又基於o3,訓了3個小尺寸的o3模型。

  目前o3-mimi,預估在1月底可以對外開放,但是感覺到時候,肯定又是pro會員專屬的模型了。

  我越來越期待,2025年AI行業的進化了。

推理模型、Agent、AI硬件、世界模型。

  每一個都是比這個中間態的2024,都更讓人興奮的東西。

  2025,必是AI行業,真正的星辰大海。

  我們也在最后,回顧一下這12天的直播吧。

  Day 1:滿血o1上線,ChatGPT Pro會員上線,o1 pro推出。

  Day 2:基於o1的強化微調。

  Day 3:Sora正式發佈。

  Day 4:ChatGPT Canvas全員開放以及小功能更新。

  Day 5:給蘋果站臺,宣傳蘋果全系接入GPT。

  Day 6:4o的實時視頻理解上線。

  Day 7:ChatGPT發佈新建文件夾「項目」功能。

  Day 8:ChatGPT Search全量開放,搜索體驗大幅優化。

  Day 9:發佈了o1的API、更新了實時語音的API、發佈了偏好微調能力(PFT)。

  Day 10:物理意義上的可以給ChatGPT打電話了。

  Day 11:炒冷飯,ChatGPT 桌面版能讀到別的應用。

  Day 12:OpenAI o3正式發佈。

  這12天,稍微有點驚喜的日子大概只有2、3天,其他都是垃圾時間。

  還好,今天的大貨,補上了之前的陰霾。

  最后,還是忍不住感嘆一聲。

  這12天,像一場漫長的馬拉松。

  我們經歷了深夜中數不勝數的垃圾時間。

  卻也迎來了最后的高光時刻。

  這感覺。

  還挺AI的。

  風險提示及免責條款

  市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。