繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

OpenAI最新測試:GPT-5與Claude在部分工作中可媲美人類專家

2025-09-26 03:23

財聯社9月26日訊(編輯 夏軍雄)當地時間周四(9月25日),人工智能(AI)研究公司OpenAI發佈了一項新的基準測試,用於比較其AI模型與各行業專業人士的工作表現。

這項測試名為GDPval,是一次初步嘗試,旨在評估OpenAI的系統距離在經濟價值工作上超越人類有多近。而經濟價值工作是OpenAI開發通用人工智能(AGI)的關鍵環節。

OpenAI周四表示,其GPT-5模型以及競爭對手Anthropic公司的Claude Opus 4.1「已經接近行業專家的工作質量」。

這並不意味着OpenAI的模型會立刻取代人類工作。儘管一些CEO預測AI在幾年內就會取代人類,但OpenAI承認GDPval目前只涵蓋人們實際工作中有限的一部分任務。不過,這是該公司用來衡量AI向這一里程碑邁進的最新方式之一。

GDPval基於美國GDP貢獻最大的九個行業,包括醫療、金融、製造業和政府等領域。測試覆蓋了44種職業,從軟件工程師到護士再到記者。

在首個版本GDPval-v0中,OpenAI邀請資深專業人士對比AI生成的報告與其他專業人士的成果,並挑選出更優者。

例如,某項任務要求投行人員為「最后一公里配送行業」製作競爭格局分析,並與AI生成的報告進行對比。OpenAI隨后將AI模型在全部44個職業中對抗人類報告的「勝率」進行平均計算。

結果顯示,GPT-5-high(高算力版本GPT-5)在40.6%的情況下被評為優於或與行業專家持平。

而Anthropic的Claude Opus 4.1模型則在49%的任務中被評為不輸於行業專家,這一表現超過了OpenAI的模型。

OpenAI對此解釋稱,之所以Claude得分更高,部分原因是其傾向於生成更美觀的圖表,而非純粹性能更優。

需要説明的是,大多數職業的工作遠不止提交研究報告,而這卻是GDPval-v0所測試的全部內容。OpenAI承認這一點,並計劃在未來開發更全面的測試,涵蓋更多行業和交互式工作流程。

儘管如此,OpenAI仍認為GDPval的進展具有重要意義。

OpenAI首席經濟學家Aaron Chatterji在接受採訪時表示,GDPval的測試結果表明,這些崗位上的人們可以利用AI模型節省時間,從而專注於更有意義的工作。

「因為模型在某些事情上已經變得很擅長,隨着能力的提升,人們可以越來越多地把部分工作交給模型,去做潛在更有價值的事情,」Chatterji説。

OpenAI評估負責人Tejal Patwardhan表示,她對GDPval的進步速度感到鼓舞。

Patwardhan指出,約15個月前發佈的GPT-4o模型得分僅為13.7%(勝出或持平人類),而GPT-5的成績幾乎提高了三倍。她預計這一趨勢還會繼續。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。