繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

GPT-5來了!免費用户也能用的「博士級」對話體驗

2025-08-08 10:34

AI播客:換個方式聽新聞 下載mp3

音頻由釦子空間生成

OpenAI重磅推出GPT-5,面向ChatGPT免費用户和付費訂閲者。總的來説,GPT-5在智能水平、速度和準確性上均有顯著提升,但仍未達到人工通用智能(AGI)。

該公司推出了GPT-5-mini和GPT-5-nano兩個變體,分別面向不同用户羣體。GPT-5在編碼基準測試中表現優異,健康相關問題回答能力也大幅提升,且幻覺率降低。

公司CEO薩姆·阿爾特曼(Sam Altman)在當地時間周三的新聞發佈會上表示,GPT-5是邁向人工通用智能(AGI)的重要一步,儘管它尚未完全達到AGI的標準。AGI被定義為一種在大多數經濟價值工作中超越人類的高自主性系統。GPT-5仍缺乏一些關鍵特質,例如部署后持續學習的能力。

OpenAI聲稱,GPT-5比之前的模型更智能、更快、更有用且更準確,幻覺率也更低。阿爾特曼將GPT-5的改進比作iPhone從像素化到視網膜顯示屏的轉變,並稱其為「首次真正感覺像是與任何主題的專家,甚至是博士級別的專家交談」。

兩個模型變體,API用户享三種模式

此次發佈還包括兩個新的模型變體:輕量級的GPT-5-mini和更快、更便宜的GPT-5-nano(僅在API中提供)。免費用户將獲得GPT-5和GPT-5-mini的訪問權限,而每月20美元的Plus訂閲用户將獲得相同的模型,但使用限制大幅提高。

每月200美元的Pro級別提供無限制的GPT-5訪問權限,以及更強大的GPT-5-pro和GPT-5-thinking版本,后者允許模型比平時更長時間地處理查詢。

Pro用户還可以選擇使用舊版模型。大多數用户無需再手動選擇模型,因為聊天界面會根據查詢的複雜性和用户的訂閲級別自動選擇合適的版本。

從下周開始,Pro用户將能夠將他們的Gmail、谷歌聯繫人和谷歌日曆連接到ChatGPT,其他訂閲級別將在未指定的日期獲得訪問權限。

用户還可以選擇聊天顏色,並從四個預設個性中選擇——憤世嫉俗者、機器人、傾聽者和書呆子。OpenAI計劃將這些個性融入高級語音模式。

OpenAI的API將為用户提供所有三種模型,並提供可選的控制功能,以在詳細或直接回應之間切換。GPT-5比之前的模型能夠保留更多信息,其上下文窗口為256,000個token,比公司之前o3模型的200,000個token有所增加。這意味着它可以更好地理解長對話、文檔或代碼,而不會丟失上下文。

編程能力和健康問題大幅提升

OpenAI在博客中表示,GPT-5在多項編程基準測試中全面超越了此前的模型,包括SWE-Bench Verified(得分74.9%)、SWE-Lancer(GPT-5-thinking得分55%)以及Aider Polyglot(得分88%)。這些測試分別用於評估模型的漏洞修復能力、完成自由職業式編程任務的表現,以及跨多種編程語言的適應性。

在周三的新聞發佈會上,OpenAI后訓練負責人揚·杜布瓦(Yann Dubois)現場向GPT-5下達指令,請它為自己的伴侶(英語使用者)「製作一個美觀、互動性強的法語學習網頁應用」,並要求包含每日進度記錄、抽認卡和測驗等多樣化活動,同時希望整體風格具備「高度吸引力」。

約一分鍾后,AI便生成了成品。雖然這只是一次預設演示,但成品網站界面精緻,功能完全契合他的要求。

「它是出色的編程協作夥伴,也擅長具備自主性的任務。」后訓練負責人米歇爾·波克拉斯(Michelle Pokrass)評價道,「它能夠高效執行長鏈條任務和工具調用(這意味着它能更好地判斷何時、如何使用網頁瀏覽器或外部API等功能),可以精準遵循複雜指令,並在執行前給出清晰的操作説明。」

OpenAI還稱,GPT-5是「迄今在健康相關問題上表現最優秀的模型」。在HealthBench、HealthBench Hard和HealthBench Consensus三項健康領域基準測試中,系統卡(記錄產品技術能力及研究結果的文檔)顯示,GPT-5-thinking的表現較前代模型「有顯著提升」。

在HealthBench Hard中,GPT-5-thinking得分25.5%,相比o3的31.6%有所進步,且所有分數均由兩名及以上醫生驗證。

虛構、欺騙和投機取巧大幅減少

在減少虛構信息方面,波克拉斯表示新模型有明顯改善。OpenAI安全研究負責人亞歷克斯·比尤特爾(Alex Beutel)補充,他們已「大幅降低GPT-5的欺騙傾向」。

「我們已採取措施,減少GPT-5-thinking在任務中出現欺騙、投機或取巧的傾向,儘管這些緩解措施並不完美,還需更多研究。」系統卡指出,

「尤其是,我們讓模型在無法完成任務時能夠優雅地失敗。」

在關閉網頁瀏覽功能的測試中,研究人員發現,GPT-5的虛構率比GPT-4o低26%,而GPT-5-thinking較o3的虛構率下降幅度更高,達65%。

對於可能具備雙重用途(既有潛在風險也可能無害)的提示,比尤特爾稱,GPT-5會採用「安全完成」策略,即在確保安全的前提下儘可能給出有用回答。據介紹,OpenAI已投入超過5000小時的紅隊測試,並與外部機構合作驗證,以確保系統穩健性。

目前,OpenAI表示ChatGPT的周活躍用户已接近7億,其中付費企業用户500萬,使用API的開發者400萬。

「這個模型的整體體驗非常好,我相信用户會切實感受到這一點。」ChatGPT負責人尼克·特利(Nick Turley)表示,「尤其是那些平時並不關注模型細節的普通用户。」

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。