大模型下一個飛躍？OpenAI的「新突破」：通用驗證器

2025-08-05 14:04

　　炒股就看金麒麟分析師研報，權威，專業，及時，全面，助您挖掘潛力主題機會！

（來源：網易科技）

在下一代大模型GPT-5備受期待之際，一項名為「通用驗證器」的新技術正浮出水面，揭示了OpenAI可能用於拉開競爭差距的「祕密武器」。

OpenAI的「通用驗證器」或將直接影響GPT-5模型的市場競爭力，8月4日據科技媒體The Information援引知情人士消息報道，這項技術已被應用於GPT-5的開發過程中。

該技術的核心機制，被比作一場「證明者-驗證者遊戲」。簡而言之，它讓一個AI模型扮演「驗證者」的角色，去檢查和評判另一個「證明者」模型生成的答案。通過這種內部對抗和反饋，系統性地提升模型的輸出質量。這一自動化流程旨在解決強化學習（RL）在創意寫作等主觀領域或數學證明等複雜領域難以驗證的瓶頸。

OpenAI內部研究人員已在社交平臺X上間接證實了相關方法的有效性。研究員Noam Brown表示，這些技術是「通用的」，能讓大模型「在難以驗證的任務上表現得更好」。這也標誌着OpenAI正試圖攻克AI商業化應用中的核心痛點——可信度。

「證明者-驗證者」的對抗遊戲

「通用驗證器」的技術細節，最早在OpenAI於2024年7月發表的一篇題為《證明者-驗證者遊戲提升大語言模型可讀性》的論文中被闡述。該方法構建了一個精巧的內部對抗訓練框架，背后是一種「證明者-驗證者博弈」模型。

該框架中「證明者和驗證者」兩種角色，如同讓一個模型內部分裂出兩個「人格」：

在訓練過程中，「驗證者」模型通過學習區分正確與錯誤的解決方案，不斷提升其「打假」能力。同時，「證明者」模型則根據「驗證者」的反饋進行優化，學習如何生成更具説服力且不易被偽造的正確答案。論文明確指出，該驗證器規模足夠小，適合大規模部署，並「為未來的GPT部署而設計」。

有研究人員向The Information表示，這種機制類似於生成對抗網絡（GANs），即通過一個「判別器」來區分真實數據與AI生成的數據，從而倒逼「生成器」不斷進步。

超級對齊團隊的「技術遺產」？

值得注意的是，這項關鍵技術被指為OpenAI前「超級對齊」團隊的「技術遺產」。發表《證明者-驗證者遊戲提升大語言模型可讀性》這篇論文的六位作者中，目前僅有Yining Chen和Nat McAleese兩人仍留在OpenAI。

據悉，該團隊由公司聯合創始人Ilya Sutskever主導成立，旨在研究如何控制未來可能出現的超級智能，但在Sutskever和另一位負責人Jan Leike離職后被迅速解散。

這為這項技術的應用增添了一層複雜的公司內部動態背景。儘管團隊已不復存在，但其技術成果顯然已被整合進OpenAI的核心產品研發路徑中，用於解決當前模型的對齊和可靠性問題。

GPT-5期望高企

這項技術突破與備受矚目的GPT-5直接相關。社交媒體上的信息顯示，有觀點認為，曾在GPT-4代碼輔助功能中進行試點的模型自我批判系統，如今已被正式整合進GPT-5這個「下一個主線模型」中。這使得外界對GPT-5的期望達到了新的高度。

OpenAI首席執行官Sam Altman本人也在近期一檔播客節目中為GPT-5造勢，稱其「在幾乎所有方面都比我們更聰明」，進一步加劇了市場的期待。與此同時，包括xAI和谷歌在內的競爭對手也已將強化學習作為提升模型能力的關鍵技術路徑並加倍投入。在此背景下，「通用驗證器」不僅是OpenAI的一項技術創新，更被視為其在白熱化的人工智能競賽中保持領先優勢的核心資產，其最終效果將在GPT-5發佈后接受市場的檢驗。

突破與挑戰並存

「通用驗證器」最重要的價值在於其「通用性」。據報道，這項技術不僅幫助OpenAI模型在可輕松驗證答案對錯的軟件編程等領域取得進步，也在創意寫作等更主觀的領域展現了改進。這意味着AI的能力正在從客觀領域向主觀領域滲透。

例如，在複雜的數學證明中，驗證器可以確保每一步都遵循形式邏輯規則且相互一致，而不僅僅是檢查最終答案。據報道，OpenAI模型最近在國際數學奧林匹克競賽中取得的突破性成績，很可能就得益於包括「通用驗證器」在內的技術。OpenAI高級研究員Alexander Wei在社交平臺X上稱，公司所使用的強化學習方法是「通用目的」的，暗示其可以驗證更主觀類別的答案質量。

然而，通往技術飛躍的道路並非坦途。據媒體早前爆料，GPT-5的研發面臨着嚴峻挑戰，包括高質量訓練數據的日益稀缺，以及大規模預訓練帶來的性能提升收益正在下降。此外，模型從內部測試到面向公眾部署后的性能衰減問題依然存在，例如內部測試中表現強大的「o3」模型，在實際應用中性能便出現大幅下降。這些因素都為GPT-5最終能否實現預期的突破，帶來了不確定性。

大模型下一個飛躍？OpenAI的「新突破」：通用驗證器

推薦文章

蘇媽出馬穩投資者信心：AMD(AMD.US)AI芯片需求強勁 市場增量高達千億級美元

財報前瞻丨騰訊Q2營收有望躍升11%！遊戲業務引領增長，AI商業化迎來突破

非農大修預示美國經濟拐點？又一聯儲官員拉響警報 降息呼聲漸高

新股申購 | 「減肥藥概念」 銀諾醫藥-B一手入場費3773.68港元，引入邁富時等基石投資者

驚現「烏龍指」？美債昨夜盤中閃崩引各方猜測 最詭異的是……

華盛早報丨芯片和半導體突發！特朗普：100%關税，蘋果等將被豁免；又有美聯儲高官放鴿

外盤頭條：特朗普對印度額外徵收25%關税，非農修正或預示美國經濟轉折

蘋果宣佈再投1000億美元支持美國製造 股價創近三個月來最大單日漲幅

蘇媽出馬穩投資者信心：AMD(AMD.US)AI芯片需求強勁市場增量高達千億級美元

非農大修預示美國經濟拐點？又一聯儲官員拉響警報降息呼聲漸高

新股申購 | 「減肥藥概念」銀諾醫藥-B一手入場費3773.68港元，引入邁富時等基石投資者

驚現「烏龍指」？美債昨夜盤中閃崩引各方猜測最詭異的是……

蘋果宣佈再投1000億美元支持美國製造股價創近三個月來最大單日漲幅