熱門資訊> 正文
2026-02-07 06:57
(來源:上觀新聞)
起於2023年的百模大戰,到2025年,九成沒了聲響。曾被熱捧的「AI六小龍」,半數或縮減業務,或戰略轉向。抱有AGI(通用人工智能)信仰、仍在持續錘鍊模型的玩家僅剩十余家。其中,上海大模型居多,且近期表現不俗,后勁甚足。
如2021年已上市的商湯科技,其最新的日日新V6.5模型,在國內率先突破圖文交錯思維鏈技術,以75.35的總分登頂SuperCLUE(中文通用大模型基準)多模態評測國內第一;
上月登陸港股的MiniMax,截至2月3日收盤,市值已超過1800億港元,遠高過先一天敲鍾的港交所「大模型第一股」智譜AI;
MiniMax1月9日登陸港交所。
階躍星辰不鳴則已,新近完成的50億元B+輪融資一鳴驚人,刷新過去12個月中國大模型單筆最高融資紀錄;
依託於基礎模型Qwen,上海AI應用「千問」去年11月發佈后,僅用時2個月就實現月活破億,並進入全球AI應用第一梯隊。
滬產大模型,何以「剩者為王」?
堅持研發不放棄
兩個月前,商湯科技首席科學家林達華現身一場AI論壇,回顧ChatGPT爆火后人工智能界「烈火烹油」般的三年。
他説,最初,業界深信尺度定律,認為大力堆砌算力和數據必出奇跡。但2024年后,受困於模型迭代滯緩、能力提升微弱、投入回報遞減等瓶頸,行業陷入迷茫。直到OpenAI o1和DeepSeek-R1出現,展示了通過長思維鏈、推理時擴展等技術手段實現模型能力突破的可能。
這讓林達華愈發意識到,「我們需要回歸實驗室,探索下一次技術範式的原始創新」。
商湯科技首席科學家林達華。
於是,從日日新模型、空間智能模型到世界模型,從架構創新、打通數據壁壘到訓練範式革新,商湯科技沉下心來,大力自主研發,果然出現奇蹟。如商湯重構視覺與語言的融合機制,近期發佈並開源的NEO多模態架構,僅用十分之一的數據就達到同量級多模態模型最佳水平。
堅持研發不放棄,是上海大模型的共同基因。MiniMax公司首席運營官貟燁禕近期在與記者交流時反覆強調,MiniMax始終專注於做好模型本身,因為模型即產品。「尤其未來Agent(智能體)的更多落地將放大模型能力差距。Agent需要做長距離、多步驟推理,如果模型好5%—10%,領先效果將被放大很多倍。」
在「做好模型」的指揮棒下,MiniMax率先鑽研混合專家MoE架構,更成為全球第一家敢於投時間、人力、算力去驗證「線性注意力機制」的創業公司。手握這兩大殺手鐗,MiniMax僅用OpenAI不到1%的花銷,就實現了語音、視頻、文本全模態模型佈局。
好用落地是王道
單純拼參數或霸榜炫技,從來不是滬產大模型的調性。對上海戰隊而言,能否深入可替代人類的高價值場景並實現規模化落地,纔是硬道理。
階躍星辰立志成為最懂終端的大模型廠商。截至去年底,階躍星辰終端Agent的接口調用量連續三個季度每季都增長近170%。在手機領域,國內60%的頭部手機品牌已和階躍達成合作,模型裝機量超過4200萬台,日均服務近2000萬人次。在汽車領域,階躍與千里科技、吉利達成深度合作,共推業內首個搭載端到端語音模型的AgentOS智能座艙,量產車型吉利銀河M9上市3個月銷量接近4萬輛,並已進軍海外市場。
階躍星辰大模型已在多款量產車型「上車」。
千問的迅速爆火,在於會聊天、能辦事。憑藉A2A(從智能體到智能體)的技術路線,千問由系統級AI理解用户意圖后,再將任務分發給各業務的專用智能體,從而突破聊天機器人侷限,成為真正能閉環辦事的AI助手。比如「一句話點外賣」功能,大模型識別外賣意圖后調用淘寶閃購智能體,結合用户定位、描述等信息,直接幫用户作出決策,甚至打通支付寶環節,無需切換App即可實現閉環交付。
大模型競爭的下半場,成本極其重要。過去,用視頻生成模型做短劇,每生成1分鍾高質量視頻,需要1小時八卡的英偉達最新GPU計算,成本高企。時長亦是痛點,傳統開源模型或商用模型,每小時能生成的視頻從20秒到80秒不等。而今,相同質量的視頻,商湯最新進階的SekoTalk,一小時可生成1280秒。針對對話場景進一步優化后,若不用英偉達最新GPU而用消費級5090顯卡,1小時計算生成視頻更可長達4500秒。跨過規模化紅線的背后,是商湯在算法、系統、模型、架構多層面的聯合創新,從而實現64倍的速度優化。
據悉,作為行業首個創編一體、支持百集連續創作的多劇集生成智能體,Seko2.0讓短劇、漫劇行業「一人劇組」變成可能,已聚集超30萬創作者,並孵化出一系列爆款劇集。其中,真人短劇《婉心計》強勢登頂抖音AI短劇榜第一。
Seko2.0讓短劇、漫劇行業「一人劇組」變成可能。
國模國芯建生態
上海「國模」,還在主動奔赴「國芯」 。
繼去年7月階躍星辰聯合華為昇騰、沐曦、壁仞科技等十家中國芯片及平臺廠商發起成立「模芯生態創新聯盟」之后,去年底,階躍星辰又與壁仞科技、上海儀電智算服務簽署戰略合作協議,圍繞「芯—模—雲」協同開展聯合技術攻關,構建從底層硬件到上層應用的國產自主可控產業閉環。
而Qwen大模型就「跑」在了國產芯片——平頭哥高端AI芯片「真武」上。1月29日,真武正式現身,從關鍵參數來看,其性能超過英偉達A800和國產主流GPU芯片,與英偉達專為中國市場設計的H20性能相當。除大規模應用於Qwen大模型的訓練和推理外,真武芯片結合阿里雲完整的AI軟件棧,已服務國內400多家客户。
真武芯片已部署訓練國產大模型。
商湯2018年就開始佈局SenseCore大裝置,2019年即具備千卡並聯能力,現總算力規模達3.2萬PFLOPS(每秒千萬億次浮點運算),商湯臨港AIDC獲全國首個5A級智算中心認證。2025世界人工智能大會大模型論壇上,商湯聯合華為、庫帕思、海光、寒武紀、曦望Sunrise、壁仞科技、麒麟軟件、摩爾線程等十余家國產生態夥伴,共同發佈「商湯大裝置算力Mall」,旨在通過算法、數據和算力的協同優化,將技術沉澱為如水電煤般的基礎設施,讓企業能以更高的投入產出比擁抱AI變革。據透露,商湯大裝置已率先在5000張國產GPU集羣上實現大規模異構混訓,算力利用率達80%,效率達同構訓練的95%。
業界普遍認為,全球大模型的較量,主要體現在中美之間。全球知名風投公司紅杉資本作出判斷,大模型競賽決賽圈,美國入圍選手只有5家,OpenAI、Anthropic、谷歌、Meta以及xAI。而中國大模型也將進一步收斂,或在2028年前形成由個位數巨頭主導的格局。基於此,即便有暫時領先優勢,上海大模型仍有清醒認知——大模型發展是一場長跑,平均每三個月就可能帶來「行業一震」,必須保持敬畏,力爭在真正決賽時依舊留在牌桌上。
原標題:《百模大戰后九成沉寂,上海軍團「剩者為王」,市值融資額頻破紀錄》
來源:作者:解放日報 李曄 查睿