熱門資訊> 正文

OpenAI正式發佈o3：通往AGI的路上，已經沒有了任何阻礙

2024-12-21 10:54

英國電信(BTTGY) 0
龍運國際(MATH) 0

　　本文來源：數字生命卡茲克，原文標題：《OpenAI正式發佈o3 - 通往AGI的路上，已經沒有了任何阻礙》

　　o3的能力，對現在所有模型，幾乎都直接是降維打擊。

　　今天凌晨2點，OpenAI的12天直播，終於來到了最終章。

　　奧特曼，也在一片聖誕的氣息中終於迴歸。

　　為大家帶來了最后的壓軸大戲。

OpenAI o3。

　　又一次超羣，又一次把模型的能力，推到了新的高度。

　　也向全世界證明了，OpenAI，依然在鐵王座上牢不可摧。

　　我也想起了OpenAI研究員在發佈o1之前的那句話：

「我們通往AGI的路上，已經沒有任何阻礙了」

　　之所以OpenAI直接發佈o3沒有o2，原因也挺簡單的。

　　因為跟英國電信服務提供商O2可能存在版權或商標衝突，所以直接跳過了。。。

　　直接到o3。

　　而OpenAI直播一完，X上基本就沸騰了。

　　o3的能力，對現在所有模型，幾乎都直接是降維打擊。

　　看下o3的能力吧。

　　一些粗的評測集簡單過一下。

　　左邊的是軟件工程考試（SWE-Bench Verified），這就像是一個考寫程序的考試，比如你寫一個軟件要它快速、準確，還不能有 bug（小錯誤）。這是考察 o3 是否能像一流的軟件工程師一樣寫出完美的代碼。

　　o3 的成績：71.7%，比o1還強了不少。

　　右邊的那個基準比較猛，Codeforces，一個全球著名的編碼競賽平臺。

　　o3的得分是2727，這個得分，相當於整個榜單的第175名，已經超越了99.99%的人類了。

　　o1的代碼能力已經強到爆炸了，而o3，又向AGI的山頂，前進了一大步。

　　數學競賽AIEM 2024和博士級科學考試GPQA Diamond。

　　AIEM 2024接近滿分，如果我沒記錯的話，這應該也是第一次AI能達到有AIEM接近滿分的水平。

　　博士級科學考試有進化，但沒數學和編程進化的這麼猛。

　　接下來的這個數學基準比較有趣一點。

　　FrontierMath，Epoch AI 開發的一個數學基準測試，由60多位頂尖數學家的合作開發，旨在評估人工智能在高級數學推理方面的能力。

　　而且爲了避免數據污染，所有的題目都是原創的且從來沒有發佈過的新題目。

　　之前GPT-4 和 Gemini 1.5 Pro這種模型去評估的時候，成功功率不足2%，與其他傳統數學基準（如 GSM-8K 和 MATH）中超過90%的成功率形成鮮明對比。

　　而這一次，o3直接達到了25.2。

　　當各大其他模型都還在卷傳統數學基準的時候，o3真的已經進入了另一個世界了。。。

　　就像大家還在大斗師階段互相卷，你是五星大斗師，我是八星大斗師。

　　兩者爭論不休，正準備要比試比試，忽然就看到一個鬥宗強者踏空而行，留下一地的卧槽。

　　這還比個鬼。

　　然后，就是我覺得，整個基準里，最有趣的一個基準了：

ARC-AGI。

　　先説説這是個啥玩意。

　　ARC-AGI於2019年首次提出，旨在通過一系列抽象和推理任務來測試AI系統的能力。

　　主要是因為傳統的技能測量方法並不能有效代表智能，因為它們往往依賴於先前知識和經驗，而真正的智能應體現在廣泛的適應能力和通用性上。

　　所以，ARC-AGI誕生了，里面的這些任務要求AI識別模式並解決新問題，每個任務由輸入輸出示例組成。這些任務以網格形式呈現，每個方塊可以是十種顏色中的一種，網格的大小可以從1x1到30x30不等。參與者需要根據給定的輸入生成正確的輸出，測試其推理和抽象能力。

　　可以簡單的理解成，找規律。

　　大概就是這樣的。

　　非常的難且抽象。

　　過去幾代模型的評分在此：

　　* GPT-2 （2019）： 0%

　　* GPT-3 （2020）： 0%

　　* GPT-4 （2023）： 2%

　　* GPT-4o （2024）： 5%

　　* o1-preview （2024）： 21%

　　* o1 （2024）： 32%

　　* o1 Pro （2024）： ~50%

　　但是今天，o3的分數，達到了恐怖的87.5%。

　　從0%到5%，整整花了5年的時間，而如今，從5%到87.5%，僅僅只花了半年。

　　而對應的，人類的閾值分數，是85%。

　　我們通往AGI的路上，已經沒有任何阻礙了。

　　不過o3強歸強，但是又是一個期貨，OpenAI目前只對紅隊開放，如果是巨佬的話，可以去申請試試。

　　目前不知道o3什麼時候放出，但是OpenAI又基於o3，訓了3個小尺寸的o3模型。

　　目前o3-mimi，預估在1月底可以對外開放，但是感覺到時候，肯定又是pro會員專屬的模型了。

　　我越來越期待，2025年AI行業的進化了。

推理模型、Agent、AI硬件、世界模型。

　　每一個都是比這個中間態的2024，都更讓人興奮的東西。

　　2025，必是AI行業，真正的星辰大海。

　　我們也在最后，回顧一下這12天的直播吧。

　　Day 1：滿血o1上線，ChatGPT Pro會員上線，o1 pro推出。

　　Day 2：基於o1的強化微調。

　　Day 3：Sora正式發佈。

　　Day 4：ChatGPT Canvas全員開放以及小功能更新。

　　Day 5：給蘋果站臺，宣傳蘋果全系接入GPT。

　　Day 6：4o的實時視頻理解上線。

　　Day 7：ChatGPT發佈新建文件夾「項目」功能。

　　Day 8：ChatGPT Search全量開放，搜索體驗大幅優化。

　　Day 9：發佈了o1的API、更新了實時語音的API、發佈了偏好微調能力（PFT）。

　　Day 10：物理意義上的可以給ChatGPT打電話了。

　　Day 11：炒冷飯，ChatGPT 桌面版能讀到別的應用。

　　Day 12：OpenAI o3正式發佈。

　　這12天，稍微有點驚喜的日子大概只有2、3天，其他都是垃圾時間。

　　還好，今天的大貨，補上了之前的陰霾。

　　最后，還是忍不住感嘆一聲。

　　這12天，像一場漫長的馬拉松。

　　我們經歷了深夜中數不勝數的垃圾時間。

　　卻也迎來了最后的高光時刻。

　　這感覺。

　　還挺AI的。

　　風險提示及免責條款

　　市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。

OpenAI正式發佈o3：通往AGI的路上，已經沒有了任何阻礙

推薦文章

一圖看懂 | 兩隻易方達ETF開啟認購！入場門檻為1500港元

新股申購 | 博泰車聯今起招股！一手入場費2065.23港元

華盛早報 | 重磅！國新辦將舉行發佈會；巴菲特已清倉比亞迪，累計套利至少80億港元

美股「新寵」驟變：「昔日冷門」硬盤與內存站上AI風口 老牌存儲廠商業績股價齊飛

美聯儲政策路徑不確定性仍存 中期美債備受交易員青睞

港股周報丨降息周期重啟！美聯儲如期降息25個基點；港股通年內淨流入突破1萬億港元

特朗普的H-1B簽證10萬美元新規引發科技公司混亂

美股機會日報 | 5.3萬億美元期權到期！美股「三巫日」今夜來襲；聯邦快遞盤前一度漲超5%

美股「新寵」驟變：「昔日冷門」硬盤與內存站上AI風口老牌存儲廠商業績股價齊飛

美聯儲政策路徑不確定性仍存中期美債備受交易員青睞