熱門資訊> 正文

全網大語言模型AI，到底誰最強悍？主流大模型全方位深度評測

2025-08-06 14:29

　　炒股就看金麒麟分析師研報，權威，專業，及時，全面，助您挖掘潛力主題機會！

　　來源：石頭科技視頻博客　　

　　大家好，本次我們將對全網13款大語言模型進行全面測評，揭示哪款性能最為出色。

　　首先公佈測評結果：綜合能力最強的依然是GPT-4。除綜合能力外，我們還測試了寫作、數學、信息提取、編程等多項能力，這些將在后續視頻中詳細分析。

　　本期文章內容分為三部分： 1．各模型的基本介紹

　　2．大語言模型的工作原理

　　3．詳細的測評流程

　　我們先來了解這些模型。GPT-4由國外公司開發，該公司雖然不是大語言模型的開創者，但卻是最早向公眾開放使用的商業公司。其次是Claude Opus，同樣來自國外公司，與Claude Sonnet同屬一家。官方宣稱Opus性能更強，Sonnet稍弱。GPT-4與GPT-3.5也屬於同一家公司。

　　為便於理解，部分模型名稱我們進行了中譯，同時保留了英文原名以避免歧義。國內公司的模型則直接使用中文名稱。

　　文心一言4.0與文心一言3.5均為百度公司旗下產品。

　　訊飛星火，顧名思義，是訊飛的產品。智普AI則屬於智普公司。360超級智腦由360開發。雙子座精英版和雙子座是谷歌的模型。此外，騰訊混元和通義千問也是兩個獨立的模型。這些模型的信息均可通過互聯網查詢，此處不再贅述。

　　接下來，我們簡要探討大語言模型的原理。許多人認為大語言模型非常神奇，甚至擔憂其可能產生自我意識並取代人類。實際上，這種情況不太可能發生。讓我們從數學函數的概念講起。

　　以函數為例，給定任意輸入，都能得到相應的輸出。例如，當時，。這種對應關係稱為函數。

　　大語言模型本質上是一個極其複雜的函數。其工作原理是：將輸入文字轉換為數字，經過這個複雜函數處理后，生成新的數字序列，再轉換回文字輸出。有人可能會問，文字如何轉換為數字？以英文為例，可以用1代表A，2代表B，以此類推。中文雖字符眾多，但理論上也可用數字編碼表示，儘管實際應用中這種方法效果欠佳。

　　文字數字化后，這些數字被輸入到一個極其複雜的函數中運算，最終結果再轉換回文字。這就是大語言模型的全部工作流程。它沒有自我意識，也不理解語言含義，僅僅是基於數學函數進行數字轉換和計算。

　　人工智能無法取代人類，也不具備自主意識。有人可能會質疑量變是否會引起質變，但答案是否定的。因為其本質只是一個函數。例如，是一個簡單函數，稍顯複雜，則更為複雜。但無論函數多麼複雜，都不會產生自主意識，也不可能取代人類。大語言模型同樣如此，既不會產生意識，也不會對人類構成威脅。

　　接下來分析具體能力維度。本次測評主要考察了編程能力、邏輯能力、中文分析能力、數學能力、中文寫作能力和英文寫作能力。在眾多模型中，GPT-4表現最為突出，其編程能力與Claude Opus、文心一言4.0並列滿分。其他模型存在一定差距，其中通義千問、雙子座精英版和360超級智腦表現較差，智普AI排名墊底，但在其他方面有所彌補。

　　需要説明的是，本次測評僅針對官網開放且存在價格差異的模型，目前展示的樣本數量有限。

　　此外，還有一些未展示的內容，但均已進行測試。所謂官網開放，以文心一言為例，文心3.5和文心4.0均在官網開放使用。

　　我未購買普通會員，而是選擇使用百度平臺的文心4.0。普通會員存在使用限制，每月額度有限，用盡即止。因此，我更傾向於購買開發者平臺，採用按量計費的方式。后續內容均可在該平臺獲取。

　　對於沒有價格差異的模型，我沒有進行測試。例如360智腦，它提供了多個對話角色，包括360智腦、埃隆·馬斯克和超級智腦，這些功能都是免費的。由於沒有價格差異，我選擇了看起來功能較強的超級智腦進行測評。同理，智譜AI也是如此。

　　這是我之前的測評記錄。該平臺提供了多種模型，目前均免費開放使用。因此，我測試了官方宣稱性能最強的GLM4模型。但部分模型如文心一言4.0，其具體評分標準如下。

　　文心一言3.5與其他模型存在價格差異，因此我對兩者都進行了測評，以評估其性價比。

　　在邏輯能力方面，GPT-4表現最優，雙子座Gemini次之，Claude Opus稍顯遜色。

　　文本分析能力的排名較為特殊，文心一言在中文信息分析中表現最佳。由於缺乏合適的英文素材，本次僅測評中文分析能力。Claude Opus在此項表現良好，百度和通義千問也表現優異，但僅限於文本分析。GPT-4的表現尚可。

　　在普通數學能力測試中，各模型表現相當，並列第一。

　　中文寫作能力方面，GPT-4意外奪冠，百度以0.5分之差緊隨其后，其他模型表現明顯落后，雙子座Gemini僅得6.5分。評分採用百分比制，滿分為15分，但具體分值並不重要，重在相對比較。

　　英文寫作能力的差距更為顯著。GPT-4領先，Claude Opus次之，雙子座Gemini兩個版本隨后，訊飛星火和文心一言表現較差。

　　文心一言4.0的英文寫作能力表現不佳，主要原因在於其生成內容多為中文。這一點我們后續會詳細討論，騰訊混元也存在類似情況。最后我們通過計算各項指標的平均值得出綜合能力評分。

　　具體計算過程如下：首先評估代碼能力，我們採用了一個長代碼問題作為測試用例。

　　從這里開始內容較為繁瑣，不感興趣的讀者可以跳過。

　　現在已過去13分鍾。關於長代碼部分，我就講到這里，感興趣的可以自行查看。這些題目中英混合，旨在測試模型的綜合能力。對於GPT和Claude等模型，它們在中文和英文上的表現都非常出色。其他語言未進行測試，原因是我個人不熟悉這些語言，且大多數人可能同樣如此。

　　接下來，我們不看長代碼，先看一個有趣的邏輯問題——數字邏輯題。這個題目原本少了一個減5分項，現在看看調整后評分是否有變化。綜合能力評分基本保持不變。有趣的是，減5分后，雙子座的表現變為最差，這與其一貫表現相符。

　　數字邏輯題是一個猜數字遊戲，來源於網絡。題目中未標註的部分表示未扣分，已標註的則是扣分項。

　　這是一道來自搜狐網的題目。題目描述如下：

　　向甲、乙、丙三人各發一個正整數，三個數字之和為14。甲對乙和丙説：「你們的數字一定不相等。」乙對甲説：「我們倆的數字之差一定比丙的數字大。」而丙始終保持沉默。

　　需要注意的是，三人都非常聰明，只要能夠推斷出各自的數字，就會立即說出來。這道題的難點在於此。題目附有解析，但我沒有複製過來。感興趣的同學可以自行搜索查看。

　　我記得可以直接用這段話在百度上進行搜索。

　　可以通過搜索獲取相關信息，此處不再贅述。

　　這個問題確實頗具難度，我經過長時間思考仍未得出答案。

　　只有GPT-4模型能夠答對這個問題，但並非每次都能答對。其他模型經過多次測試，均未能答對，可見GPT-4的邏輯能力確實非常出色。

　　接下來我們分析長代碼問題。這段代碼本身並不複雜，難點在於其中一句存在歧義的語句。這種設計是爲了模擬現實中的複雜問題，因為實際場景中不可能每句話都表述得非常清晰。雖然這句話的歧義並不嚴重，對人類而言理解起來毫無困難，但對AI來説卻極具挑戰性。例如「早上叫姐姐，晚上姐姐叫」這樣的句子就存在明顯歧義，人類可以輕松理解，但對AI的分析能力是很大考驗。最終只有少數幾個模型能夠正確完成這個任務。

　　智譜AI和雙子座Pro接近完成但最終失敗。在后續的雞湯邏輯和宴會邏輯測試中，大多數模型表現良好，但令人不解的是Claude居然無法正確回答如此簡單的雞湯邏輯問題，而許多小型模型反而能夠答對。

　　古詩默寫測試中，百度表現最佳，其他模型存在不同程度的錯誤。GPT-4也表現不錯，僅錯一處。Claude在這個環節完全無法作答，14行詩測試同樣失敗，顯示出該模型仍存在明顯缺陷。

　　以下是幾道閲讀題。

　　這些題目均選自歷年語文考試真題，來源於網絡。如需測試，可私信獲取相關文件。

　　在閲讀能力方面，訊飛星火等模型表現欠佳，主要原因是其處理長文本的能力有限。當文章超過1000至2000字時，這些模型往往無法正常工作，或者難以保持上下文的連貫性。以GPT-3.5為例，它在回答問題時經常無法完整迴應，導致評分較低。

　　舉例來説，假設我們需要進行超長文寫作，根據現有資料撰寫劇本。這些資料均來源於網絡，內容較為宂長。多數模型僅能對文本進行簡單總結，而無法準確記憶並執行「撰寫劇本」的指令，這充分考驗了模型的上下文記憶能力。

　　在測評中，360、質朴AI和雙子座的表現相對較差。數學部分尤為有趣，但未納入最終評分，因其難度過高。題目包括一道函數求導及極值問題，以及一道三角函數問題，均源自網絡原題。這兩道高考難度題目對多數人頗具挑戰性，答案已附於文末。

　　第八號模型是訊飛火星和360智腦，它們碰巧答對了一個問題。然而，由於題目難度過高，我認為這次結果缺乏參考價值。后續重新提問時，它們的答案又出現了變化，因此我並未將此次結果納入評分體系，並特別標註了紅色標記。

　　此外，我還設置了一些編程題目，這些題目選自力扣平臺，難度較高。但這也反映出一個現象：當前編程競賽題目（如ICPC、ACM等）的實際意義有限。這類題目在網上都能找到現成答案，更像是測試記憶而非能力。

　　本次測評中，AI的表現進一步驗證了我的觀點。三個模型在編程題上均獲得滿分，且代碼的時間複雜度和空間複雜度表現優異。這表明算法問題已無需人工解決。

　　最后，我還準備了兩道英文超長寫作題目。

　　首先是英文短文寫作部分，基於之前的雅思考試題目，各模型表現均較為出色，因此未在此詳細列出，均給予滿分10分。

　　接下來是英文長文寫作測評，我搜集了相關資料並設定為劇本創作任務。測評結果顯示，各模型在此項表現差異顯著。例如，百度4.0儘管被明確要求用英文回答，卻仍使用中文回覆，因此扣除全部12分。

　　GPT模型表現優異，劇本設計人物生動、情節合理且趣味性強。相比之下，多數模型僅簡單概括文章內容，未能達到電影情節設計的要求，整體表現欠佳。其中百度4.0因語言不符成為最差案例。

　　最后進行總結。

　　若需處理中文內容，文心一言4.0是最佳選擇，其信息提取能力尤為突出，適用於文章總結或要點歸納等任務。在中文寫作方面，GPT-4表現更優，但文心一言同樣出色。對於中文文本相關需求，文心一言4.0完全能夠勝任，且其3.5版本與4.0版本差距顯著，會員費用物有所值。相比之下，360和騰訊的模型表現欠佳。

　　在邏輯分析方面，無論是數學能力還是邏輯推理，GPT-4均為最強選擇。若無法使用GPT-4，文心一言4.0是最佳替代方案。智普AI雖在邏輯能力上有所建樹，但數學能力較弱，綜合表現不及文心一言。

　　編程方面，文心一言表現卓越，完全不遜色於GPT和克勞德模型。至於英文寫作，GPT-4仍為首選，若無法使用，訊飛星火是次優選擇，但其處理長文本的能力有限。

　　文心一言4.0表現最差，因其總是提供中文回答，令人不甚滿意。

　　接下來總結各模型是否值得開通會員：

　　- GPT-4現已免費，無需開通會員。

　　- 克勞德的Opus與Sonnet版本在綜合能力上存在顯著差距，因此會員服務具有一定價值。

　　- 文心一言與3.5版本差距較大，會員服務意義重大。文心一言可媲美克勞德鉅著，而3.5版本則與克勞德十四行詩相當。

　　- GPT系列中3.5和4版本仍保持領先地位。

　　綜合能力最強的當屬文心一言4.0，使用最為便捷。若輔以訊飛星火處理英文文案，則完全夠用。

　　至於智普AI等模型，無論中文、英文能力，還是算法、邏輯及數學表現均不盡如人意，不建議使用。

　　本次測評的價值顯而易見。

　　這是智譜AI官方公佈的模型能力展示。

　　該模型號稱性能可比肩GPT-4，聲稱達到其90%的水平。然而，根據我的測評結果，它與GPT-4的實際差距相當顯著。究其原因，問題出在測試數據集上。這些數據集説實話我此前聞所未聞，但為何被廣泛採用作為評測標準呢？這本質上是一個系統性漏洞。

　　以學術論文為例：最初學者撰寫論文是爲了記錄重要研究成果，但后來論文數量逐漸演變為衡量標準。於是人們無論有無實質貢獻都開始大量產出論文，最終導致學術灌水現象。

　　同理，這些測試數據集本應用於評估模型性能，但部分企業卻專門針對這些特定數據集進行優化。雖然模型在這些數據集上表現優異，但實際應用效果卻不盡如人意，因為其優勢僅限於特定測試場景。

　　可以説，這個系統基本涵蓋了日常生活中常用的功能，如文案撰寫，這已包含在中英文寫作模塊中。此外，編程、邏輯分析、數學等常見需求也都包含在內。有人可能會問，為何不包含生物、醫藥、法律等領域的內容？因為這些領域的核心本質仍是信息提取和分析，與閲讀理解題的性質相同。

　　對於這個模型，不應將其視為人類，而要理解其知識儲備是無限的，只是缺乏運用知識的能力。因此，詢問金融問題與語文問題的效果是相同的。

　　一個有趣的現象是，某些模型如360超級智腦會出現抄襲答案的情況。這些抄襲答案的模型在測評中都被判為零分。抄襲答案表明模型對題目缺乏獨立理解，若更換題目便無法解答。允許的做法是上網搜索后自行總結，或至少改變表述方式以證明理解。直接抄襲答案或拒絕回答的模型均被判為零分，因為這對實際應用毫無意義。

　　接下來，我們繼續分析智譜AI的測評結果。

　　從測評能力來看，無論是中文還是英文，該模型的表現似乎都超越了GPT-4。然而，這一結論僅基於特定數據集。在實際應用層面，智譜AI的表現仍有較大提升空間。

　　無論是中文還是英文，其表現均不及GPT出色。以中文信息分析與提取能力為例，其水平遠遜於GPT，甚至不及百度。中文寫作能力同樣不盡如人意。

　　他怎敢在此宣稱能夠超越GPT4？或許僅在某些對齊能力或特定任務上有所突破，但實際應用並無顯著價值。本文章僅針對文本能力進行了測評。

責任編輯：尉旖涵

全網大語言模型AI，到底誰最強悍？主流大模型全方位深度評測

推薦文章

美股機會日報 | 阿里發佈千問3.5！性能媲美Gemini 3；馬斯克稱Cybercab將於4月開始生產

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

一周IPO | 賺錢效應持續火熱！年內24只上市新股「0」破發；「圖模融合第一股」海致科技首日飆漲逾242%

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意

財報前瞻 | 英偉達Q4財報放榜在即！高盛、瑞銀預計將大超預期，兩大關鍵催化將帶來意外驚喜？