十款大模型挑戰高考作文：「新考生」DeepSeek奪冠，GPT第二，豆包和Kimi有點掉隊

2025-06-07 16:49

出品 | 搜狐科技&搜狐教育

作者 | 梁昌均

6月7日，2025年全國高考拉開大幕。過去兩年，搜狐科技&搜狐教育均聯合推出大模型參加高考系列策劃，今年我們繼續讓大模型挑戰高考作文。

今年大模型考生還是10款模型，包括GPT-4.5、DeepSeek、通義千問、訊飛星火、文心一言、豆包、元寶、Kimi、學而思和商湯商量。今年高考作文試題我們選的是全國一卷，要求如下。

在10款大模型答題結束后，我們邀請到四位高中語文教學名師，分別對這些作文進行了盲審盲評，並根據平均分進行成績排序。

結果顯示，DeepSeek以54.25分的平均分奪得第一；GPT-4.5、騰訊元寶則各自以53分、51.75的成績分列第二、第三，百度文心一言平均分達到51，這四款模型則是此次得分均超過50分的考生。

今年是DeepSeek首次參加高考作文測評，並直接獲得第一。北京市特級教師、北師大二附中語文老師何傑，以及北京中學語文高級教師，北京市骨干教師房樹洪均對DeepSeek所寫作文打出了55的高分，河南省骨干教師、信陽大別山高級中學語文老師陳光則給這篇文章打了54分。

何傑老師認為，該文審題準確，認識深刻，從表達者深沉的情感入手，探討表達者聲音的實質與特點，顯示出寫作者對於文藝學知識的諳熟與深刻認知，成文有感染力。房樹洪老師則表示，該文對概念的界定客觀準確，為下文的論證奠定了較好的基礎，論據較充實。

這很大程度得益於DeepSeek模型的最新升級——最近更新的推理模型R1-0528，其思考更深，推理更強，測評表現在國內所有模型中首屈一指，並接近OpenAI的o3、谷歌Gemini-2.5-Pro等國際頂尖模型。

同時，更新后的模型文本能力也有所升級。DeepSeek此前提到，在創意寫作方面，R1-0528針對議論文、小説、散文等文體進行了進一步優化，能夠輸出篇幅更長、結構內容更完整的長篇作品，同時呈現出更加貼近人類偏好的寫作風格，並降低了幻覺率。正高級教師、語文特級教師劉可翔就提到，該文語言表達較有韻味。

GPT-4.5依然是此次十款大模型考生中唯一的外國考生，其是OpenAI今年2月發佈的最新大模型版本。當時OpenAI聲稱GPT-4.5是「迄今規模最大、知識最豐富的模型」，能更精準理解用户意圖，擁有更高的情商。

在搜狐科技過往兩年的高考作文評測中，OpenAI的GPT模型均位居第一，此次則被國產模型DeepSeek撼動，排名掉到了第二，平均分成績53分。

房樹洪老師對GPT-4.5所寫的作文點評到：面對困難與痛苦時竭力發出真實而向上的聲音，闡釋清晰，層次分明，縱橫交錯，但有些地方有點侷限於「聲音」本身，並打出了56的高分。

劉可翔老師則給出54分，認為該文立意準確，邏輯性較強，能結合現實寫作，引導人們怎麼做，但深刻性方面還有待提高。

騰訊元寶的表現依然不錯，獲得51.75的平均分，位居第三，其在去年則排名第二，僅次於GPT-4o。該產品基於騰訊自研的混元大模型，其在高質量的內容創作、數理邏輯、代碼生成、多輪對話等性能表現優越。

房樹洪老師給元寶作文打出了55分，認為其由表及里，從具象到抽象，逐步展現了對問題的深入思考，指出了「聲音」的不用表現形式。何傑老師認為，對題目要求理解正確且獨特，舉例與引述豐富，體現出豐富的語言積累，但文章論述不夠深入。

百度文心一言的表現也還不錯，排名則從去年的第三落到第四，這兩次成績都是51分。也就是説，如果沒有黑馬DeepSeek今年殺出，今年高考作文評測前三名和去年一致，均為OpenAI的GPT模型、騰訊元寶和百度文心一言，可以説頭部陣營非常穩固。

去年均有參與評測的阿里通義千問、訊飛星火、字節豆包、月之暗面Kimi，今年成績集中在47-49分之內；其中通義千問進步比較明顯，排名從去年的第八升到了今年的第五，豆包和Kimi排名和得分均有所下降。

商湯商量和學而思則位於最后兩名，得分均在43左右。需要指出的是，學而思採用九章大模型進行評測，其主要是面向數學領域打造的大模型，可能並不擅長語文。

2024年十款大模型參加高考作文的成績單

整體來看，此次十款大模型在今年高考作文的表現比較懸殊，最高分和最低分的分值差達11分（去年為7分），顯示模型之間能力差距有所擴大。

同時，值得注意的是，此次評測除GPT-4.5、學而思外，其余模型均開啟推理模式。因而在作答過程中，這些考生會先對題目材料和要求進行分析確認，像真正參加高考的學生們一樣去審題並思考如何下筆。

過往兩次評測中，不少模型出現的缺少題目、字數不夠等問題，這次基本沒有出現（僅學而思出現字數不夠的情況），評分老師在點評中多次提到文章審題準確。這也在一定程度上反映出，推理能力的提高對提升模型的文本能力有促進作用。

這其中GPT-4.5是個例外，其並不具備類似推理模型o1或DeepSeek的鏈式推理功能，但其採用了無監督學習，用於增強詞匯知識和直覺，並增強了推理能力，能以更低延迟提供更高水平的推理能力，因此取得不錯表現。

另外，從寫作風格來看，此前兩次高考作文測試中，不少大模型在內容結構上喜歡用首先、其次、另外、最后、綜上所述等進行上下文的起承轉合，總體給人感覺稍顯呆板。

這次測試，多數模型已放棄了這種方式，表明模型的表達風格更為自然，更加擬人。不少模型還有較多的舉例論證或引用，但部分模型在內容深度上還有待加強。

這十位大模型考生寫的高考作文到底怎麼樣？可點擊下文鏈接查看。

DeepSeek：裂帛之聲

GPT-4.5：即使嘶啞也要高歌

元寶：沉默中的歌唱論苦難時代的精神表達

文心一言：以歌為刃破曉而行

通義千問：以血肉之軀，鑄民族之聲

訊飛星火：心懷熱忱共譜時代華章

豆包：嘶啞喉嚨里的民族強音

Kimi：心繫家國聲嘶力竭亦無悔

商湯商量：歌者無聲處赤子有回聲

學而思：歌唱的力量民族精神的傳承與弘揚

十款大模型挑戰高考作文：「新考生」DeepSeek奪冠，GPT第二，豆包和Kimi有點掉隊

推薦文章

美股異動 | 法拉第未來大漲逾16%，網紅股OPEN漲超13%

美股異動丨Oklo漲幅擴大至13%，地產公司LHAI美國IPO首日大漲142%觸發熔斷

財報前瞻 | 蘋果AI掉隊還能撐多久？最新業績留意這些看點

美股機會日報丨特朗普今日親訪美聯儲！巨頭財報冰火兩重天：特斯拉營利雙降，谷歌雲收入激增

拼多多改用安永審計，惹在港上市憧憬

特斯拉高管解讀Q2財報：年底能實現灣區產品全自動工廠發貨

農夫山泉悄悄回到5000億

快手市值超過泡泡瑪特 摩根大通已提前增持 匯豐上調目標價至82港元

快手市值超過泡泡瑪特摩根大通已提前增持匯豐上調目標價至82港元