繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

OpenAI稱GPT-5在眾多職業領域表現比肩人類

2025-09-26 01:04

  OpenAI 於周四發佈一項新基準測試,旨在評估其人工智能模型在各類行業及職業中與人類專業人士的表現差異。這項名為 GDPval 的測試,是該公司爲了解自身系統在 「高經濟價值工作」 上與人類表現的接近程度所做的初步嘗試 —— 而實現這一目標,正是 OpenAI 成立使命中 「研發通用人工智能(AGI)」 的關鍵組成部分。

  OpenAI 表示,研究發現其 GPT-5 模型及 Anthropic 公司的 Claude Opus 4.1 模型 「在工作質量上已接近行業專家水平」。

  但這並不意味着 OpenAI 的模型即將立即取代人類崗位。儘管部分首席執行官預測人工智能將在數年內取代人類工作,但 OpenAI 承認,目前 GDPval 測試僅覆蓋了人類實際工作中極為有限的一部分任務。不過,這仍是該公司衡量人工智能向 「超越人類」 這一里程碑邁進的最新方式之一。

  GDPval 測試基於對美國國內生產總值(GDP)貢獻最大的 9 個行業,涵蓋醫療健康、金融、製造業、政府服務等領域。該基準測試評估人工智能模型在這些行業的 44 種職業中的表現,職業範圍從軟件工程師、護士到記者不等。

  在 GDPval 測試的首個版本(GDPval-v0)中,OpenAI 邀請資深專業人士對人工智能生成的報告與其他人類專業人士生成的報告進行對比,並選出表現更優的一份。例如,其中一項測試要求投資銀行家撰寫 「最后一公里配送行業」 的競爭對手分析報告,並將其與人工智能生成的報告對比。隨后,OpenAI 會計算該人工智能模型在所有 44 種職業的測試中,其報告 「優於或與人類報告持平」 的勝率平均值。

  對於 GPT-5 的增強版本 ——GPT-5-high(配備額外計算能力),OpenAI 表示該模型在 40.6% 的測試場景中,表現被評定為 「優於或與行業專家持平」。

  OpenAI 還對 Anthropic 公司的 Claude Opus 4.1 模型進行了測試,結果顯示該模型在 49% 的任務中表現 「優於或與行業專家持平」。不過 OpenAI 認為,Claude 能取得如此高的評分,更多是因為其擅長生成視覺效果出色的圖表,而非單純依靠任務表現本身。

  值得注意的是,大多數職場人士的工作遠不止 「向老闆提交研究報告」—— 而這正是 GDPval-v0 測試的全部內容。OpenAI 也承認這一侷限性,並表示計劃在未來開發更全面的測試,納入更多行業及交互式工作流程的評估。

  儘管如此,OpenAI 仍認為在 GDPval 測試中取得的進展值得關注。

  在接受 TechCrunch(科技媒體)採訪時,OpenAI 首席經濟學家亞倫・查特吉(Aaron Chatterji)博士表示,GDPval 的測試結果表明,從事這些職業的人如今可以藉助人工智能模型,將時間投入到更有意義的任務中。

  「(因為)模型在這些任務上的表現越來越出色,」 查特吉説,「隨着模型能力的不斷提升,從事這些工作的人可以越來越多地藉助模型分擔部分工作,進而去完成潛在價值更高的任務。」

  OpenAI 評估部門負責人特賈爾・帕特瓦丹(Tejal Patwardhan)向 TechCrunch 表示,GDPval 測試中展現的進步速度讓她備受鼓舞。約 15 個月前發佈的 OpenAI GPT-4o 模型,在該測試中 「優於或與人類持平」 的勝率僅為 13.7%;而如今 GPT-5 的勝率幾乎是其 3 倍,帕特瓦丹預計這一上升趨勢還將持續。

  硅谷擁有多種用於衡量人工智能模型進展、判斷某一模型是否達到 「最先進水平」 的基準測試,其中最受歡迎的包括 AIME 2025(競爭性數學題測試)和 GPQA Diamond(博士級科學問題測試)。然而,部分人工智能模型在這些基準測試中已接近 「性能飽和」,許多人工智能研究者表示,亟需更完善的測試來評估模型在實際任務中的能力。

  隨着 OpenAI 不斷證明其人工智能模型對多個行業具有實用價值,GDPval 這類基準測試在相關討論中的重要性可能會日益提升。但要明確宣稱其人工智能模型能超越人類,OpenAI 或許還需要推出更全面的測試版本。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。