繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

2025年大模型又該走向何方?融合大模型會是「最優答案」嗎?

2025-01-10 15:49

轉自:上觀新聞

2025年,大模型會如何「進化」,還有怎樣的想象空間?

就在今天,申城人工智能頭部企業商湯科技正式推出 「日日新」融合大模型,深度推理能力與多模態信息處理能力均大幅提升,並在SuperCLUE和OpenCompass兩大權威評測榜單均奪得第一,成為「雙冠王」。

「一個模型、雙料冠軍」,意味着商湯科技率先在原生融合模態訓練取得實質性突破。業內人士分析,這將改變大語言模型和多模態大模型分立的普遍現狀,走向真正意義的模型一統。

文理兼修 能寫能看能推理

商湯「日日新」融合大模型性能上文理兼修,在國內權威大模型測評機構SuperCLUE年度評測中,文科成績以81.8分位列全球第一,超越OpenAI的o1模型;理科成績奪得金牌,其中計算維度以78.2分位列國內第一。

實現原生模態融合后,「日日新」融合大模型不止能達到人類「看」和「想」的水平,還可以幫助解決更多複雜問題——看不清的字體、數據圖表里的信息、文學創作與撰寫……這些都可以實現。

英文「草書」難以辨認,「日日新」融合大模型識別快速精準

記者試着讓其處理非常潦草的英語筆跡,「日日新」融合大模型能準確「讀出」;諸如2的31次方大還是3的21次方大,它能用對數函數的方法解出。

融合大模型解數學題

融合模態 開拓應用新維度

在實際應用場景中,相較於傳統大語言模型僅支持單一文本輸入的模式,「日日新」融合大模型展現出顯著優勢,特別是在自動駕駛、辦公教育、金融、園區管理、工業製造等天然擁有豐富模態信息的場景中。

「‘日日新’融合大模型能夠有效滿足用户對圖像、視頻、語音、文本等多源異構信息的綜合處理與識別需求。」商湯科技研發團隊介紹。例如,在辦公、金融領域,需要處理很多複雜的富模態文檔:表格、文本、圖片、視頻,以及融合這些形式的豐富信息。而基於「日日新」融合大模型的應用——「辦公小浣熊」就可以高效地完成處理分析相關的複雜任務。

與此同時,基於融合大模型的優勢,「日日新」在視覺交互上也有豐富的應用場景,例如在線上教育、語音客服等場景,均可以結合語音和自然語言來提升交互體驗。

反哺基模 走通迭代全閉環

2024年,原生多模態大模型逐漸成為業內探討的重要方向。然而,由於數據和訓練方法的侷限,業內很多機構的嘗試並不成功——多模態訓練過程往往會導致純語言任務,尤其是指令跟隨和推理任務的性能嚴重下降。

在推動語言模型和多模態模型融合的過程中,商湯科技發展出兩項關鍵的創新技術:融合模態數據合成與融合任務增強訓練,進而完成「日日新」融合大模型的訓練,推向市場。

記者瞭解到,在預訓練階段,採用了天然存在的海量圖文交錯數據,還通過逆渲染、基於混合語義的圖像生成等方法合成了大量融合模態數據,在圖文模態之間建立起大量交互橋樑;在后訓練階段,構建了大量的跨模態任務,包括視頻交互、多模態文檔分析、城市場景理解、車載場景理解等。

通過把這些任務融入到增強訓練的過程,融合模態模型不僅被激發出強大的對多模態信息進行整合理解分析的能力,而且還形成了對業務場景有效的響應能力,走通了應用落地反哺基礎模型迭代的閉環。

圖片來源:採訪對象供圖

欄目編輯:陸梓華

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。