繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

全網大語言模型AI,到底誰最強悍?主流大模型全方位深度評測

2025-08-06 14:29

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

  來源:石頭科技視頻博客  

  大家好,本次我們將對全網13款大語言模型進行全面測評,揭示哪款性能最為出色。

  首先公佈測評結果:綜合能力最強的依然是GPT-4。除綜合能力外,我們還測試了寫作、數學、信息提取、編程等多項能力,這些將在后續視頻中詳細分析。

  本期文章內容分為三部分: 1. 各模型的基本介紹

  2. 大語言模型的工作原理

  3. 詳細的測評流程

  我們先來了解這些模型。GPT-4由國外公司開發,該公司雖然不是大語言模型的開創者,但卻是最早向公眾開放使用的商業公司。其次是Claude Opus,同樣來自國外公司,與Claude Sonnet同屬一家。官方宣稱Opus性能更強,Sonnet稍弱。GPT-4與GPT-3.5也屬於同一家公司。

  為便於理解,部分模型名稱我們進行了中譯,同時保留了英文原名以避免歧義。國內公司的模型則直接使用中文名稱。

  文心一言4.0與文心一言3.5均為百度公司旗下產品。

  訊飛星火,顧名思義,是訊飛的產品。智普AI則屬於智普公司。360超級智腦由360開發。雙子座精英版雙子座是谷歌的模型。此外,騰訊混元通義千問也是兩個獨立的模型。這些模型的信息均可通過互聯網查詢,此處不再贅述。

  接下來,我們簡要探討大語言模型的原理。許多人認為大語言模型非常神奇,甚至擔憂其可能產生自我意識並取代人類。實際上,這種情況不太可能發生。讓我們從數學函數的概念講起。

  以函數為例,給定任意輸入,都能得到相應的輸出。例如,當時,。這種對應關係稱為函數。

  大語言模型本質上是一個極其複雜的函數。其工作原理是:將輸入文字轉換為數字,經過這個複雜函數處理后,生成新的數字序列,再轉換回文字輸出。有人可能會問,文字如何轉換為數字?以英文為例,可以用1代表A,2代表B,以此類推。中文雖字符眾多,但理論上也可用數字編碼表示,儘管實際應用中這種方法效果欠佳。

  文字數字化后,這些數字被輸入到一個極其複雜的函數中運算,最終結果再轉換回文字。這就是大語言模型的全部工作流程。它沒有自我意識,也不理解語言含義,僅僅是基於數學函數進行數字轉換和計算。

  人工智能無法取代人類,也不具備自主意識。有人可能會質疑量變是否會引起質變,但答案是否定的。因為其本質只是一個函數。例如, 是一個簡單函數, 稍顯複雜, 則更為複雜。但無論函數多麼複雜,都不會產生自主意識,也不可能取代人類。大語言模型同樣如此,既不會產生意識,也不會對人類構成威脅。

  接下來分析具體能力維度。本次測評主要考察了編程能力、邏輯能力、中文分析能力、數學能力、中文寫作能力和英文寫作能力。在眾多模型中,GPT-4表現最為突出,其編程能力與Claude Opus、文心一言4.0並列滿分。其他模型存在一定差距,其中通義千問、雙子座精英版和360超級智腦表現較差,智普AI排名墊底,但在其他方面有所彌補。

  需要説明的是,本次測評僅針對官網開放且存在價格差異的模型,目前展示的樣本數量有限。

  此外,還有一些未展示的內容,但均已進行測試。所謂官網開放,以文心一言為例,文心3.5和文心4.0均在官網開放使用。

  我未購買普通會員,而是選擇使用百度平臺的文心4.0。普通會員存在使用限制,每月額度有限,用盡即止。因此,我更傾向於購買開發者平臺,採用按量計費的方式。后續內容均可在該平臺獲取。

  對於沒有價格差異的模型,我沒有進行測試。例如360智腦,它提供了多個對話角色,包括360智腦、埃隆·馬斯克和超級智腦,這些功能都是免費的。由於沒有價格差異,我選擇了看起來功能較強的超級智腦進行測評。同理,智譜AI也是如此。

  這是我之前的測評記錄。該平臺提供了多種模型,目前均免費開放使用。因此,我測試了官方宣稱性能最強的GLM4模型。但部分模型如文心一言4.0,其具體評分標準如下。

  文心一言3.5與其他模型存在價格差異,因此我對兩者都進行了測評,以評估其性價比。

  在邏輯能力方面,GPT-4表現最優,雙子座Gemini次之,Claude Opus稍顯遜色。

  文本分析能力的排名較為特殊,文心一言在中文信息分析中表現最佳。由於缺乏合適的英文素材,本次僅測評中文分析能力。Claude Opus在此項表現良好,百度和通義千問也表現優異,但僅限於文本分析。GPT-4的表現尚可。

  在普通數學能力測試中,各模型表現相當,並列第一。

  中文寫作能力方面,GPT-4意外奪冠,百度以0.5分之差緊隨其后,其他模型表現明顯落后,雙子座Gemini僅得6.5分。評分採用百分比制,滿分為15分,但具體分值並不重要,重在相對比較。

  英文寫作能力的差距更為顯著。GPT-4領先,Claude Opus次之,雙子座Gemini兩個版本隨后,訊飛星火和文心一言表現較差。

  文心一言4.0的英文寫作能力表現不佳,主要原因在於其生成內容多為中文。這一點我們后續會詳細討論,騰訊混元也存在類似情況。最后我們通過計算各項指標的平均值得出綜合能力評分。

  具體計算過程如下:首先評估代碼能力,我們採用了一個長代碼問題作為測試用例。

  從這里開始內容較為繁瑣,不感興趣的讀者可以跳過。

  現在已過去13分鍾。關於長代碼部分,我就講到這里,感興趣的可以自行查看。這些題目中英混合,旨在測試模型的綜合能力。對於GPT和Claude等模型,它們在中文和英文上的表現都非常出色。其他語言未進行測試,原因是我個人不熟悉這些語言,且大多數人可能同樣如此。

  接下來,我們不看長代碼,先看一個有趣的邏輯問題——數字邏輯題。這個題目原本少了一個減5分項,現在看看調整后評分是否有變化。綜合能力評分基本保持不變。有趣的是,減5分后,雙子座的表現變為最差,這與其一貫表現相符。

  數字邏輯題是一個猜數字遊戲,來源於網絡。題目中未標註的部分表示未扣分,已標註的則是扣分項。

  這是一道來自搜狐網的題目。題目描述如下:

  向甲、乙、丙三人各發一個正整數,三個數字之和為14。甲對乙和丙説:「你們的數字一定不相等。」乙對甲説:「我們倆的數字之差一定比丙的數字大。」而丙始終保持沉默。

  需要注意的是,三人都非常聰明,只要能夠推斷出各自的數字,就會立即說出來。這道題的難點在於此。題目附有解析,但我沒有複製過來。感興趣的同學可以自行搜索查看。

  我記得可以直接用這段話在百度上進行搜索。

  可以通過搜索獲取相關信息,此處不再贅述。

  這個問題確實頗具難度,我經過長時間思考仍未得出答案。

  只有GPT-4模型能夠答對這個問題,但並非每次都能答對。其他模型經過多次測試,均未能答對,可見GPT-4的邏輯能力確實非常出色。

  接下來我們分析長代碼問題。這段代碼本身並不複雜,難點在於其中一句存在歧義的語句。這種設計是爲了模擬現實中的複雜問題,因為實際場景中不可能每句話都表述得非常清晰。雖然這句話的歧義並不嚴重,對人類而言理解起來毫無困難,但對AI來説卻極具挑戰性。例如「早上叫姐姐,晚上姐姐叫」這樣的句子就存在明顯歧義,人類可以輕松理解,但對AI的分析能力是很大考驗。最終只有少數幾個模型能夠正確完成這個任務。

  智譜AI雙子座Pro接近完成但最終失敗。在后續的雞湯邏輯和宴會邏輯測試中,大多數模型表現良好,但令人不解的是Claude居然無法正確回答如此簡單的雞湯邏輯問題,而許多小型模型反而能夠答對。

  古詩默寫測試中,百度表現最佳,其他模型存在不同程度的錯誤。GPT-4也表現不錯,僅錯一處。Claude在這個環節完全無法作答,14行詩測試同樣失敗,顯示出該模型仍存在明顯缺陷。

  以下是幾道閲讀題。

  這些題目均選自歷年語文考試真題,來源於網絡。如需測試,可私信獲取相關文件。

  在閲讀能力方面,訊飛星火等模型表現欠佳,主要原因是其處理長文本的能力有限。當文章超過1000至2000字時,這些模型往往無法正常工作,或者難以保持上下文的連貫性。以GPT-3.5為例,它在回答問題時經常無法完整迴應,導致評分較低。

  舉例來説,假設我們需要進行超長文寫作,根據現有資料撰寫劇本。這些資料均來源於網絡,內容較為宂長。多數模型僅能對文本進行簡單總結,而無法準確記憶並執行「撰寫劇本」的指令,這充分考驗了模型的上下文記憶能力。

  在測評中,360質朴AI雙子座的表現相對較差。數學部分尤為有趣,但未納入最終評分,因其難度過高。題目包括一道函數求導及極值問題,以及一道三角函數問題,均源自網絡原題。這兩道高考難度題目對多數人頗具挑戰性,答案已附於文末。

  第八號模型是訊飛火星和360智腦,它們碰巧答對了一個問題。然而,由於題目難度過高,我認為這次結果缺乏參考價值。后續重新提問時,它們的答案又出現了變化,因此我並未將此次結果納入評分體系,並特別標註了紅色標記。

  此外,我還設置了一些編程題目,這些題目選自力扣平臺,難度較高。但這也反映出一個現象:當前編程競賽題目(如ICPC、ACM等)的實際意義有限。這類題目在網上都能找到現成答案,更像是測試記憶而非能力。

  本次測評中,AI的表現進一步驗證了我的觀點。三個模型在編程題上均獲得滿分,且代碼的時間複雜度空間複雜度表現優異。這表明算法問題已無需人工解決。

  最后,我還準備了兩道英文超長寫作題目。

  首先是英文短文寫作部分,基於之前的雅思考試題目,各模型表現均較為出色,因此未在此詳細列出,均給予滿分10分。

  接下來是英文長文寫作測評,我搜集了相關資料並設定為劇本創作任務。測評結果顯示,各模型在此項表現差異顯著。例如,百度4.0儘管被明確要求用英文回答,卻仍使用中文回覆,因此扣除全部12分。

  GPT模型表現優異,劇本設計人物生動、情節合理且趣味性強。相比之下,多數模型僅簡單概括文章內容,未能達到電影情節設計的要求,整體表現欠佳。其中百度4.0因語言不符成為最差案例。

  最后進行總結。

  若需處理中文內容,文心一言4.0是最佳選擇,其信息提取能力尤為突出,適用於文章總結或要點歸納等任務。在中文寫作方面,GPT-4表現更優,但文心一言同樣出色。對於中文文本相關需求,文心一言4.0完全能夠勝任,且其3.5版本與4.0版本差距顯著,會員費用物有所值。相比之下,360和騰訊的模型表現欠佳。

  在邏輯分析方面,無論是數學能力還是邏輯推理,GPT-4均為最強選擇。若無法使用GPT-4,文心一言4.0是最佳替代方案。智普AI雖在邏輯能力上有所建樹,但數學能力較弱,綜合表現不及文心一言。

  編程方面,文心一言表現卓越,完全不遜色於GPT和克勞德模型。至於英文寫作,GPT-4仍為首選,若無法使用,訊飛星火是次優選擇,但其處理長文本的能力有限。

  文心一言4.0表現最差,因其總是提供中文回答,令人不甚滿意。

  接下來總結各模型是否值得開通會員:

  - GPT-4現已免費,無需開通會員。

  - 克勞德的Opus與Sonnet版本在綜合能力上存在顯著差距,因此會員服務具有一定價值。

  - 文心一言與3.5版本差距較大,會員服務意義重大。文心一言可媲美克勞德鉅著,而3.5版本則與克勞德十四行詩相當。

  - GPT系列中3.5和4版本仍保持領先地位。

  綜合能力最強的當屬文心一言4.0,使用最為便捷。若輔以訊飛星火處理英文文案,則完全夠用。

  至於智普AI等模型,無論中文、英文能力,還是算法、邏輯及數學表現均不盡如人意,不建議使用。

  本次測評的價值顯而易見。

  這是智譜AI官方公佈的模型能力展示。

  該模型號稱性能可比肩GPT-4,聲稱達到其90%的水平。然而,根據我的測評結果,它與GPT-4的實際差距相當顯著。究其原因,問題出在測試數據集上。這些數據集説實話我此前聞所未聞,但為何被廣泛採用作為評測標準呢?這本質上是一個系統性漏洞。

  以學術論文為例:最初學者撰寫論文是爲了記錄重要研究成果,但后來論文數量逐漸演變為衡量標準。於是人們無論有無實質貢獻都開始大量產出論文,最終導致學術灌水現象。

  同理,這些測試數據集本應用於評估模型性能,但部分企業卻專門針對這些特定數據集進行優化。雖然模型在這些數據集上表現優異,但實際應用效果卻不盡如人意,因為其優勢僅限於特定測試場景。

  可以説,這個系統基本涵蓋了日常生活中常用的功能,如文案撰寫,這已包含在中英文寫作模塊中。此外,編程、邏輯分析、數學等常見需求也都包含在內。有人可能會問,為何不包含生物、醫藥、法律等領域的內容?因為這些領域的核心本質仍是信息提取和分析,與閲讀理解題的性質相同。

  對於這個模型,不應將其視為人類,而要理解其知識儲備是無限的,只是缺乏運用知識的能力。因此,詢問金融問題與語文問題的效果是相同的。

  一個有趣的現象是,某些模型如360超級智腦會出現抄襲答案的情況。這些抄襲答案的模型在測評中都被判為零分。抄襲答案表明模型對題目缺乏獨立理解,若更換題目便無法解答。允許的做法是上網搜索后自行總結,或至少改變表述方式以證明理解。直接抄襲答案或拒絕回答的模型均被判為零分,因為這對實際應用毫無意義。

  接下來,我們繼續分析智譜AI的測評結果。

  從測評能力來看,無論是中文還是英文,該模型的表現似乎都超越了GPT-4。然而,這一結論僅基於特定數據集。在實際應用層面,智譜AI的表現仍有較大提升空間。

  無論是中文還是英文,其表現均不及GPT出色。以中文信息分析與提取能力為例,其水平遠遜於GPT,甚至不及百度。中文寫作能力同樣不盡如人意。

  他怎敢在此宣稱能夠超越GPT4?或許僅在某些對齊能力或特定任務上有所突破,但實際應用並無顯著價值。本文章僅針對文本能力進行了測評。

責任編輯:尉旖涵

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。