熱門資訊> 正文
2025-08-08 08:57
本文來自格隆匯專欄:虎嗅 ,作者:宋思杭
昨晚,註定難眠。GPT-5,終於來了。
北京時間8月8日凌晨1點,OpenAI CEO Sam Altman 沒有爽約。在發佈會前一天,他在 X(原 Twitter)上寫道:「明天上午10點(太平洋時間)發佈GPT-5,發佈會會比以往更長,一個小時左右。」
結果,這場被全網盯緊的發佈整整持續了 1小時18分鍾,堪稱「最重頭戲」。
Altman 的造勢從來不是空喊。這位硅谷最有話語權的「AI佈道者」在會前甚至自曝:「測試完GPT5,我感覺自己一無是處。」看似誇張的説法,卻意外地成為這場發佈的真實註腳。
在開場介紹GPT-5時,奧特曼簡單回顧了下從GPT-3到4,再到5的歷程。他自己比喻説,「GPT-3像個高中生,GPT-4像個大學生,而GPT-5則已經變成了一名專家,一名各個領域的專家。」
GPT-5並沒有讓人失望,它甚至可能讓打工人們開始焦慮,首當其衝的就是程序員。
這次發佈會最大的信息量,不是語言理解能力有多強、創作能力有多豐富,而是它在代碼編寫、調試、部署上的全新維度:GPT-5不再是「會寫代碼的語言模型」,它是一個工程級開發助手。
這場發佈會上,OpenAI 花了將近一半時間在「現場寫代碼」。它兩分鍾就可以搭建出一個完整網站,五分鍾做出一款語言學習App,並能精準識別並修復 Bug。它不僅聽懂複雜需求,還能結構清晰地拆解任務、實現功能、給出部署建議——這種能力,已不是「輔助編程」,而是直接搶活干了。
對於熟悉 AI 編程工具的人來説,這意味着什麼?意味着 Copilot 要退休了,意味着 Replit 要被重塑,意味着Cursor等「AI IDE」要被全面整合。Altman 在現場甚至直接説:「這是我們有史以來最強的編程模型。」
而背后支撐這一切的,是GPT-5在推理能力、上下文管理、多模態理解等多個維度上的飛躍。OpenAI 此次還發布了面向不同用户的模型矩陣,包括:GPT-5 Standard、GPT-5 Mini(輕量版)、GPT-5 Nano(嵌入式和移動端使用)。
這三個版本面向 API 和企業客户開放,按百萬 tokens 計費。輸入價格分別是1.25/0.25/0.05美元,輸出價格為10/2/0.4 美元——極具市場穿透力。對於開發者而言,這是「從業門檻」被再一次降維打擊。
值得一提的是,Altman 雖並未過多談 AGI,但業內都清楚:GPT-5已經不侷限於在AI大模型的世界里內卷,而是不斷突破上限,在AGI的道路上完成大躍進。
這不是一次「模型升級」,而是一次生產力結構的重構。
GPT-5登場的這一刻,AI 世界的天花板,再次被抬高。而我們,是否準備好面對它帶來的新範式,還很難説。
接下來,筆者將還原出這場發佈會最精彩的部分:
在現場演示之前,OpenAI先是一如既往地展示了GPT-5的一連串標杆成績。
首先,GPT-5最驚艷的就是,在編碼能力方面實現全面碾壓。
SWE‑Bench Verified:作為檢測模型修復真實軟件工程問題能力的標準,GPT‑5 在這一評測中取得驚人的 74.9%,領先於 o3 的 69.1%,展現了更高效、更精準的代碼理解與生成能力。
其次,GPT-5還極大降低了大模型所產生的幻覺問題,並實現在可靠性和事實準確性方面雙雙提升。
在回答事實類問題時,GPT‑5 的「幻覺」錯誤率,相對GPT‑4o減少約 45%,而相對o3則減少約80%。
在GPT-5發佈會上,除了代碼能力,奧特曼特別重點強調的就是GPT-5在健康醫療領域的表現。在醫療場景測試(如 HealthBench Hard Hallucinations),它的生成錯誤率僅為1.6%,遠低於GPT‑4o的12.9%和o3的15.8%。
GPT-5最為炸裂的部分,就是代碼能力。
這一次,GPT‑5真的在發佈會上秀瘋了。幾乎從開始演示到結束,一共有四個「全場景、真交互」的代碼能力展示,讓在場開發者和遠程觀眾都忍不住感慨:「程序員,真的要慌了。」
1、兩分鍾生成SVG動畫
Prompt:讓我迅速瞭解什麼是伯努利效應(Bernouli effect)
在這個prompt下,GPT-5迅速給出了關於伯努利效應的詳細解釋。而當用户再要求用SVG動畫演示時,GPT-5則直接開始進入深度思考模式,兩分鍾生成了420行代碼,最終我們看到了這個可交互的動畫。
值得注意的是,用户可以自由調整飛行速度和角度,氣流線條也跟着實時變動。這不僅是可視化的知識輸出,更是個性化、具備教學輔助價值的模擬系統。
2、五分鍾搭建APP
Prompt:「我是英語母語者,為正在學法語的搭檔做一個互動式學習 App,要有卡片、猜詞、遊戲,最好做成一隻老鼠吃芝士學單詞。」
GPT‑5不僅「聽懂」了需求,還在五分鍾內把需求全量落地:卡片式界面、互動功能、學習進度追蹤全都上線。
而那個「老鼠吃芝士」的小遊戲,更是讓人拍案叫絕——每當老鼠吃掉一塊芝士,就會自動播放一個法語單詞語音,學習與娛樂真正無縫融合。
你甚至能看到這個 AI 在用户沒有明確要求的細節上主動優化交互邏輯,足以説明其理解層級已經躍升。
3、修復代碼bug
這一幕的設定就像現實工作場景:一名工程師把一個看似正常、實則問題百出的項目代碼交給GPT‑5,希望它能發現潛在問題。
過去,AI 模型寫代碼已經夠勉強,找 bug 更是無從談起。而這次,GPT‑5不僅找出了關鍵問題,還提出瞭解決方案,並在模擬運行中無誤通過。
要知道,這是第一次,有開發者把真實工程任務直接交給 AI 獨立完成且成功運行。這不僅意味着自動化寫代碼,它的下一步,可能是參與整個軟件生命周期管理。
4、五分鍾創建可視化財務看板
Prompt:請為我的AI智能體公司創建一個財務儀表盤,公司已完成D輪融資。
用户將企業的各類數據一股腦拋給GPT‑5,模型在五分鍾內交出了一份堪比創業公司CFO級別的動態財務看板。所有數據項都自動映射,支持調整、更新、篩選,UI 也堪稱「即用級別」。
GPT-5發佈會的一個多小時里,奧特曼還多次強調,「GPT-5是我們做過最強的代碼模型」。
如果説前兩個部分還讓人覺得GPT‑5是個優秀的「工具人」,那麼第三部分,它則徹底展現出 AI 向「智能伴侶」進化的潛力。
GPT‑5這次發佈的最大突破之一,就是它極具深度的個性化能力。
而這種個性化,不再是表面地更換「主題色」那麼簡單,而是——能參與到你的人生決策中來。
GPT-5現已支持更換聊天框顏色
在現場展示中,GPT‑5首先展示了一個「超級個人助理」的身份:
它可以接入用户的日曆、郵件,自動檢查你漏掉的事務,比如一封未處理的會議邀請,甚至你平時的健身頻率;並基於這些信息,為你自動生成個性化的日程規劃。你再也不需要手動設置提醒、記會議、安排生活了——GPT‑5會根據你自己過去的行為模式,像一個瞭解你的生活教練一樣來管理一切。
這就好像拆掉了 Chatbot 與 Agent 之間的最后一道牆。
過去半年,海內外AI公司紛紛入局Agent,微軟、谷歌、Anthropic 接連發布自己的 Agent 系統;就連OpenAI自己也在上個月小範圍推出首個原生Agent。但這一切,在 GPT‑5 面前,顯得更像是「預演」。
不過,GPT-5的Agent化,是基於它本身認知能力提升之上的自然進化。
它不靠預設流程,而是基於理解你、記住你、聯動外部信息,來動態調整策略、生成建議,真正做到了「定製級智能體」。
而 GPT‑5最讓人動容的演示,也是奧特曼刻意強調的一個「終極話題」——GPT-5在健康醫療領域的應用。
來到GPT-5發佈會現場的這位女士是身患三種癌症的患者。面對醫生發來的複雜醫學報告,她一頭霧水,而最終治療方案的選擇又完全壓在她自己身上。
GPT‑5於是登場:它不僅將難懂的醫學術語翻譯成日常語言,還就每種治療方案的利弊做出清晰對比,甚至幫助她從心理與生活角度評估哪種路徑更適合她的狀態。
在這場AI競技場上,海外已經開始捲起來。
一個晚上,奧特曼連發12條X;
而就在GPT-5發佈會期間,在X上刷屏的不止奧特曼,還有馬斯克——他説「Grok在一般推理任務上已經超過GPT-5。」