熱門資訊> 正文
2024-09-14 09:27
奧特曼和馬保國有什麼共同點?答:都愛搞偷襲。
「草莓」的消息已經傳了幾個月,據說這是OpenAI內部的一個神祕項目,似乎和前代模型頗有些不同。但OpenAI一直諱莫如深,最接近曝光的時刻,是此前CEO山姆·奧特曼(Sam Altman)在社交媒體上發佈的一張真·草莓照片。
就在前幾天,The Information還在爆料稱「草莓」將在未來兩周內發佈。
即便在如此高的關注度下,OpenAI還是打了世界一個措手不及:當地時間9月12日下午,沒有任何預告,沒有任何發佈會,OpenAI突然發佈了新模型。
不過,新模型的名字不像「草莓」那樣美味,而是很正經,且饒有深意:o1。
要知道,此前OpenAI發模型一直以「GPT」系列迭代,從2018年的GPT-1到今年5月的GPT-4o無不如是。如今,OpenAI卻開闢新條線。
在官宣o1發佈的官方博文中,OpenAI這樣説道:「作為早期模型,它還不具備使 ChatGPT 有用的許多功能……但對於複雜的推理任務來説,這是一個重大進步,代表了 AI 能力的新水平。鑑於此,我們將計數器重置回1並將此係列命名為 OpenAI o1。」
新模型目前只開放給ChatGPT付費訂閲用户和部分程序員,為表該模型還不成熟,暫叫「o1-preview」,preview即為預覽之意。此外,OpenAI還順手發了小模型版本o1-mini。不管是o1-preview還是o1-mini,目前都有每周的迴應條數限制。
奧特曼自己在社交媒體X上誇讚新模型是「我們迄今為止最強大、最一致的模型」之外,也強調「o1仍然存在缺陷,仍然有限」。
一向喜歡給ChatGPT潑冷水的AI學者蓋里·馬庫斯(Gary Marcus)則戲謔OpenAI此舉是「熟悉的配方」:公佈演示demo、向有限的用户開放、籌集資金、再來一遍。
o1發佈的當下,OpenAI正在進行新一輪融資。根據彭博社最新消息,本輪融資將是百億美元規模、目標估值1500億美元的大事件。
(一)
先來看看模型本身。
正如此前的傳聞,o1的一大側重點是「推理」。而「推理」的背后的關鍵,則是「思考」。
對於用户來説,最直觀的感受是o1-preview在回答問題之前,會花更長時間。
字母榜在o1-preview模型下,向ChatGPT提問「今天是幾月幾號星期幾」。問題發送后,ChatGPT逐一顯示自己正在進行的思考步驟:解答日期問題、審查指引、瞭解當前日期,而后纔給出答案,標明「思考8秒」。
與之相比,在GPT-4o模型下,ChatGPT在3秒內直接給出回答,沒有顯示中間步驟。
「這是一款通過強化學習訓練的新型大預言模型,旨在執行復雜的推理任務。o1在回答問題前會進行思考——它可以在回答用户之前產生一個內部的長‘思維鏈’。」OpenAI在博文中寫道。
這次o1模型發佈,OpenAI官方對於技術細節透露得很少,反覆強調的就是「思維鏈」。
據OpenAI解釋,o1在嘗試解決問題時使用思維鏈,就像人類在回答一個困難問題之前長時間地思考。通過強化學習,o1學會了精細化其思維鏈並優化使用策略。它能夠識別和糾正自己的錯誤,學會將複雜的步驟分解得更簡單。當前的方法不起作用時,它會嘗試不同的方法。
「這個過程極大地提高了模型的推理能力。」
那o1的能力究竟有多強呢?除了OpenAI一連發布的數條演示視頻之外,最有説服力的還得是測試成績。OpenAI表示,在許多推理密集的基準測試中,o1的表現「與人類專家相媲美」,優於以前的技術。例如在國際奧數考試(IMO)中,以前的技術得分13%,o1的得分高達83%。
在 Codeforces 編程比賽中,o1拿到89%的優異成績。OpenAI基於o1還針對性地開發了更擅長編程的o1-ioi,成績一舉超過93%的參賽者。
另一個被OpenAI特別拿出來「炫耀」的測試是GPQA-diamond,這是一個化學、物理學和生物學專業知識的基準測試。OpenAI邀請了擁有博士學位的專家一同比拼,發現「o1的表現超過了這些人類專家」。
OpenAI還稱,啟用視覺感知能力后,o1在MMMU測試中的得分為78.2,%,「成為*個能夠與人類專家競爭的模型」。此外,57個MMLU子類別中,o1在54個子類別上超過了GPT-4o。
總之,o1比起OpenAI之前的模型,更注重推理能力,在數學和編程等方面的能力尤其得到提升,説誇張點兒簡直是拳打博士,腳踢專家,而且通過「思維鏈」,還有望減少模型的幻覺。
(二)
不過,目前o1還處在比較早期的階段,正如奧特曼強調的「還有缺陷,仍然有限」。
僅在字母榜的淺淺嘗試中,o1-preview就發生過錯誤。如提問「9.11和9.9哪個大」,GPT-4o回答錯誤,o1-preview同樣回答錯誤,一本正經地表示「9.11確實大於9.9.因為9.11(即9.11)比9.9(9.90)要大」。囉唆中帶着一絲滑稽,更別提思考花費了15秒。
The Information也報道稱,一些試用了o1-preview的用户表示,很多互動「不值得額外等待10到20秒的時間」,他們更喜歡GPT-4o的響應速度。
目前開放給付費用户的是o1-preview和o1-mini,但次數有限制:o1-preview每周30條消息,o1-mini每周50條消息。
下周開始,ChatGPT的企業用户和教育(Edu)用户也可以訪問這兩種模型。OpenAI還表示未來想向所有用户免費提供o1-mini,但具體的時間並未公佈。
這還是OpenAI首次在發佈模型的時候加上類似「preview(預覽)」的后綴,此前不管是GPT-4還是GPT-4o都是直接發佈完全體。
o1的一個不容忽視的特點是:貴。
開發人員訪問o1的成本非常高:在API方面,o1-preview每100萬個輸入令牌或模型解析的文本塊收費15美元,是GPT-4o的三倍,每100萬個輸出令牌收費60美元,是GPT-4o的四倍。
The Atlantic在報道中分析稱,o1專門被設計成需要更多時間的,這必然會消耗更多資源,增加AIGC盈利的難度。
(三)
本文開頭提到的馬庫斯(Gary Marcus)是人類神經科學和人工智能交叉領域的學者,紐約大學榮譽教授,同時也是AI初創公司Geometric Intelligence的創始人兼CEO,他更加深入人心的角色是「AI界的刺兒頭」,多次批評OpenAI。
在他看來,OpenAI突然發佈o1-preview的舉動更多是一種宣傳手段。
畢竟OpenAI正在進行一輪重要的融資,據彭博社近日的最新報道,OpenAI正在商談以1500億美元估值從投資者那里籌集65億美元,此外還想以循環信貸的方式從銀行籌集50億美元。
「發demo,向有限用户開放、籌錢、重複」,馬庫斯這樣總結OpenAI的「手段」。
今年7月,The Information曾報道OpenAI今年可能虧損高達50億美元。其中OpenAI今年的員工成本約15億美元,AI訓練和推理成本可能高達70億美元,而年收入則預計在35億美元到45億美元之間。
當時The Information就預言,照這個燒錢速度,OpenAI很快就得出來融資,上一次OpenAI的重要融資還是2023年初,微軟投了百億美元。
OpenAI已經不是*次在關鍵節點釋放「不成熟的產品」。
去年10月,OpenAI傳出尋求出售股票的消息,當時被傳的可能估值是860億美元。但是次月OpenAI發生了驚人的高層鉅變,奧特曼被踢出公司,又很快重回CEO崗位,贏得了「宮鬥」。但股票出售計劃由此被短暫耽擱,直到11月底纔有交易「重回正軌」的消息。彼時就有知情人士表示,員工擔心這次突發事件會影響股票出售,影響公司的估值。
有趣的是,在今年2月15日,OpenAI突然公佈了一個全新的視頻生成模型Sora,演示demo引起外界震動。不出三日,《紐約時報》報道,OpenAI完成了員工出售股份的交易,公司估值「如期」超過800億美元。
如今已經過去了半年多,Sora迟迟未向大眾開放,甚至沒有推進大規模的測試。外界開始懷疑,Sora其實根本沒有足夠的算力支撐運行。市場研究機構Factorial Funds發佈的報告認為,部署Sora需要72萬張英偉達H100芯片。
9月初,《臺灣經濟日報》報道臺積電的A16埃米級芯片已經有大客户下單,除了蘋果之外,還有OpenAI。而OpenAI將用定製芯片提升Sora的視頻生成能力。這似乎也印證着此前Sora遇到了算力卡點。
如今草莓味的ChatGPT來了,也許很快,我們就能看到OpenAI成功完成新一輪融資、估值超萬億元的消息。
【本文由投資界合作伙伴字母榜授權發佈,本平臺僅提供信息存儲服務。】如有任何疑問,請聯繫(editor@zero2ipo.com.cn)投資界處理。