熱門資訊> 正文
2025-08-06 08:29
OpenAI深夜扔出開源核彈,gpt-oss 20B和120B兩款模型同時上線。它們不僅性能比肩o3-mini和o4-mini,而且還能在消費級顯卡甚至手機上輕松運行。GPT-2以來,奧特曼終於兑現了Open AI。
他來了!他來了!
就在今夜,奧特曼帶着兩款全新的開源模型走來了!
正如幾天前泄露的,它們分別是總參數1170億,激活參數51億的「gpt-oss-120b」和總參數210億,激活參數36億的「gpt-oss-20b」。
終於,OpenAI再次迴歸開源。
gpt-oss-120b
在覈心推理基準測試中,120B模型的表現與OpenAI o4-mini相當,並且能在單張80GB顯存的GPU上高效運行(如H100)。
gpt-oss-20b適用於低延迟、本地或專業化場景
在常用基準測試中,20B模型的表現與OpenAI o3-mini類似,並且能在僅有16GB顯存的邊緣設備上運行。
除此之外,兩款模型在工具使用、少樣本函數調用、CoT推理以及HealthBench評測中也表現強勁,甚至比OpenAI o1和GPT-4o等專有模型還要更強。
其他亮點如下:
寬松的Apache 2.0許可證:可自由用於構建,無copyleft限制或專利風險——是實驗、定製和商業化部署的理想選擇。
可配置的推理投入:可根據用户的具體用例和延迟需求,輕松調整推理投入(低、中、高)。
完整的思維鏈:可完整訪問模型的推理過程,從而簡化調試並提升輸出結果的可信度。
支持微調:支持參數級微調,可根據您的特定用例對模型進行完全定製。
智能體能力:利用模型原生的函數調用、網頁瀏覽、Python代碼執行和結構化輸出等能力。
原生MXFP4量化:在訓練時,模型的混合專家(MoE)層便採用了原生的MXFP4精度,使得gpt-oss-120b在單張H100 GPU上即可運行,而gpt-oss-20b僅需16GB內存。
值得一提的是,OpenAI還特地準備了一個playground網站供大家在線體驗。
體驗地址:https://gpt-oss.com/
GitHub項目:https://github.com/openai/gpt-ossHugging Face(120B):https://huggingface.co/openai/gpt-oss-120bHugging Face(20B):https://huggingface.co/openai/gpt-oss-20b
gpt-oss系模型,是OpenAI自GPT-2以來首次開源的語言模型。
今天,OpenAI同時放出了34頁技術報告,模型採用了最先進的預訓練和后訓練技術。
模型卡:https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf
相較於此前開源的Whisper和CLIP,gpt-oss模型在推理能力、效率以及在廣泛部署環境中的實用性上更強。
每個模型都採用了Transformer架構,並融入MoE設計,減少處理輸入時激活參數量。
如上所述,gpt-oss-120b總參數1170億,每token激活51億參數,gpt-oss-20b總參數210億,每token激活36億參數。
此外,模型還借鑑了GPT-3設計理念,採用了交替的密集註意力和局部帶狀稀疏注意力模式。
爲了提升推理和內存效率,模型還採用了分組多查詢注意力機制,組大小為8,以及旋轉位置編碼(RoPE),原生支持128k上下文。
gpt-oss模型的訓練數據以「英語」為主,聚焦STEM、編程和通用知識領域。
OpenAI採用了o200k_harmony分詞器對數據進行分詞,它是OpenAI o4-mini和GPT-4o所用分詞器的「超集」。
今天,這款分詞器同步開源。
利好開發者的是,gpt-oss兩款模型與Responses API兼容,專為智能體工作流打造,在指令遵循、工具使用、推理上極其強大。
比如,它能自主為需要複雜推理,或是目標是極低延迟輸出的任務調整推理投入。
同時完全可定製,並提供完整的思維鏈(CoT),以及支持結構化輸出。
據悉,gpt-oss模型整個預訓練成本,低於50萬美元。
在后訓練階段,gpt-oss模型的流程與o4-mini相似,包含了「監督微調」和「高算力強化學習」階段。
訓練過程中,團隊以「OpenAI模型規範」為目標對齊,並教導模型在生成答案前,使用CoT推理和工具。
通過採用與專有o系推理模型的相同技術,讓gpt-oss在后訓練中展現出卓越能力。
與API中的OpenAI o系列推理模型相似,這兩款開源模型支持三種推理投入——低、中、高。
開發者只需在系統提示詞中加入一句話,即可在延迟與性能間靈活切換。
在多個基準測試中,gpt-oss-120b堪比旗艦級o系模型的性能。
具體來説,在編程競賽(Codeforces)、通用問題解決(MMLU和HLE)以及工具調用(TauBench)方面,它直接超越了o3-mini,達到甚至超越了o4-mini的水平。
此外,在健康相關查詢(HealthBench)、數學競賽(AIME 2024 & 2025)基準中,它的表現甚至優於o4-mini。
儘管gpt-oss-20b規模較小,但在相同的評估中,其表現與o3-mini持平或更優,甚至在AIME、健康領域基準上的表現超越了o3-mini。
在AIME數學測試中,gpt-oss-120b和gpt-oss-20b隨着推理token的增加,準確率折線逐漸逼近。
在博士級知識問答基準中,gpt-oss-120b的性能始終領先於gpt-oss-20b。
此外,OpenAI近期研究表明,未經直接監督訓練的CoT有助於發現模型潛在不當行為。
這一觀點也得到了業內其他同行的認同。
同樣,遵循o1-preview的設計原則,研究團隊並未對gpt-oss模型CoT直接監督,讓模型更加透明。
gpt-oss-120b和gpt-oss-20b的開源,標誌着OpenAI終於在開源模型上,邁出了重要一步。
在同等規模下,它們在推理性能上,可與o3-mini、o4-mini一較高下,甚至是領先。
OpenAI開源模型為所有開發者,提供了強大的工具,補充了託管模型的生態,加速前沿研究、促進創新。
更重要的是,模型開源降低了一些羣體,比如新興市場、缺少算力小企業的准入門檻。
一個健康的開放模型生態系統,是讓AI普及並惠及所有人的一個重要方面。
對於這次的開源,奧特曼驕傲地表示:gpt-oss是OpenAI「數十億美元」研究成果的結晶,是全世界最出色、最實用的開放模型!
還等什麼?趕快下載下來享用吧!
參考資料:
https://openai.com/index/introducing-gpt-oss/
本文來自微信公眾號「新智元」,作者:新智元,36氪經授權發佈。