AI視頻大模型之爭：誰能成為下一個DeepSeek

2025-05-14 09:07

本文來自：深網騰訊新聞作者：吳芊語

DeepSeek后勁依然很足，壓力率先傳導到大模型「六小虎」：零一萬物宣佈全面擁抱DeepSeek，放棄大參數模型競爭；百川智能兩周年之際，創始人王小川反思戰線拉得過長，不夠聚焦，過早進入商業化，增加了組織的複雜度；月之暗面在沉寂多月之后，加入大模型價格戰。

「百模大戰」下，「六小虎」是在一年多時間內，「戰」出來的大語言模型創業公司。而在國內AI視頻生成領域，同樣也「戰」出一些創業公司：愛詩科技、生數科技、智象未來、Pika。（注：「六小虎」中智譜、MiniMax、階躍星辰也有相關產品）

從ChatGPT、Sora、再到DeepSeek，在這場席捲全球的AI風暴里，大模型「六小虎」可謂幾家歡樂幾家愁，有的仍在牌桌上，但有的也就下了牌桌。

無獨有偶，AI視頻大模型賽道的創業企業亦是如此……鹿影科技被爆將被MiniMax收購，智象未來CEO梅濤近日在接受媒體採訪時表示，今年對他們很重要，要留在牌桌上。

「目前行業普遍面臨的都是商業化問題。」愛詩科技一名內部人士表示，今年公司旗下產品pixverse計劃在國內上線，試圖打開新的商業化版圖。生數科技引入原字節AI「大將」駱怡航擔任CEO，也被視為加快商業化進程的舉措。

成本和商業化的「魔咒」

2024年10月，百度創始人李彥宏在一次內部講話中稱，Sora這種AI視頻大模型的投入周期太長，10年、20年都可能拿不到業務收益，無論多火爆，百度都不去做。李彥宏一針見血地指出了行業內普遍面臨的問題：高成本、商業化前景不明。

Sora正式發佈后，中國銀河證券研究院的報告顯示，Sora對算力需求呈指數級增長，其根據Sora參數規模推演出的訓練單次算力需求或可達到2.6×10^24Flops，相當於GPT-3175B的8.2倍。

智象未來一位內部人士認為，旗下產品Hi Dream AI沒有在C端上做大量的投入，也與成本有關，「不僅需要消耗大量的算力成本，運營成本也不是一筆小數目。」目前文生視頻企業的商業化選擇比較相似，主要採取API接口和訂閲制兩種模式。

B端是目前企業的主要收入來源，從生數科技、智象未來公開的一些信息來看，主要是和廣告、動漫、營銷、影視、遊戲等，與視頻有着天然關聯的行業產生合作。C端則大多數採用積分制，按月收費，分標準版、專業版和旗艦版，每月59元-500元不等。Vidu用户已覆蓋200多個國家和地區，暫未公佈月活。

與大語言模型一樣，文生視頻應用同樣面臨用户留存的問題。多位知名AIGC創作者均表示，市面上的產品或多或少存在一些「硬傷」，不會固定只使用一家或者兩家的產品。

中信證券研報指出，文生視頻領域雖在Sora發佈后加速發展，新架構模型性能提升顯著，應用場景潛力巨大，但要真正實現大規模商業化，還有很長的路要走，技術打磨、用户體驗優化、市場教育，一個都不能少。

「今年將是視頻模型商業化快速發展的一年。」生數科技首席科學家朱軍表示，在文生視頻領域，人們對視頻消費的需求廣闊，生成本身的價值密度更高，因而商業化進展也會更快。

近期，原字節跳動火山引擎AI應用產品線一號位駱怡航正式加入生數科技。駱怡航在AI商業化領域的豐富經驗，或將為生數科技帶去商業化落地經驗和行業資源。

商業化加速的背后，是大模型公司的融資門檻正在變得更高。近半年，文生視頻領域的融資消息，更是屈指可數。3月5日，愛詩科技宣佈完成A5輪融資，其上一輪融資消息披露則是去年12月，完成A2至A4輪融資，總金額近3億元。

去年12月，智象未來也宣佈完成數億元A輪融資，該輪融資由合肥產投、華富嘉業、湖北長江電影集團有限責任公司共同投資。生數科技最近一輪融資信息披露還是在去年6月，宣佈完成數億元Pre-A輪融資，由北京市人工智能產業投資基金、百度聯合領投，中關村科學城公司等跟投。

「從VC角度來説，在不同階段看的東西可能不一樣，早期孵化階段看團隊質量，到今天的話既要看技術，又要看商業化。」朱軍在公開場合表示，去年下半年投資環境變得謹慎了一些，今年上半年明顯環境變得更好了。

天使投資人、資深人工智能專家郭濤也表示當前投資領域對相關賽道關注度持續升溫，但已從單純的概念炒作轉向理性評估。

「一家獨大」的概率不高

如同ChatGPT在2023年初帶來的大語言模型創業潮，2024年2月，Sora的發佈同樣推動

文生視頻模型加速進化。在這之前，愛詩科技PixVerse V1、Runway Gen1、Pika1.0已經發布。而后創業公司乘風而上，科技巨頭紛紛下場。

2024年4月，生數科技發佈了對標Sora的視頻大模型Vidu 1.0，期間多次上線新功能，今年1月更新至2.0版本。PixVerse則從2024年7月開始，保持着近2個月一次的極速迭代模式。

快手可靈發佈后，字節、騰訊混元和阿里通義萬相相繼加入其中，MiniMax的海螺視頻App也全球上線……

從去年下半年至今，文生視頻在保持主體一致性和連續性上，有了很大的改善，基本物理規律的遵循度也有所提高。

「但是發展至今市面上的主流產品整體差距並不大，比如從時長上來看，基本上都是5秒左右，最多20秒。生成時間過長，后面崩的可能性很大，這是普遍面臨的穩定性不夠好的問題。」海螺AI一名員工表示，「運動效果偶爾會出現誤差，是因為當前視頻模型大部分使用DIT架構，這一架構下AI無法真正識別物理空間。」

去年Minimax推出海螺視頻時，其創始人閆俊傑曾表示，做視頻模型這件事還挺難的。他認為視頻的工作複雜度比做文本更難，因為視頻的上下文文本天然很長，一個5秒的視頻就有幾M，但5秒看100個字可能都不到1K，這是幾千倍的存儲差距。

「這里面的挑戰在於，之前基於文本建的這套底層基礎設施怎麼來處理數據，怎麼來清洗數據，以及怎麼來標註。」閆俊傑認為，基礎設施需要升級，其次就是耐心，視頻開源內容沒那麼多，需要付出的耐心更大。

除此之外，數據訓練還受限於版權問題，比如此前MiniMax受到了愛奇藝的起訴。當前，各家的解決辦法主要是和影視機構、視頻平臺等合作，智象未來創始人梅濤表示，高質量的版權數據資產，將成為人工智能企業核心競爭力之一，「2028年有理由相信大模型會把人類所產生的現有的、現成的數據消耗掉，面對未來可能出現的數據匱乏情況，應該提前佈局，思考應對策略。」

受DeepSeek影響，開源的風同樣吹到了AI視頻領域。2月21日，階躍星辰最新開源的是兩款多模態模型——Step-Video-T2V、Step-Audio；2月26日，阿里的技術團隊開源了文生視頻大模型，包括全部推理代碼和權重，最寬松的開源協議；3月初，騰訊圖生視頻與此前文生視頻模型HunyuanVideo一樣，發佈即開源……

開源即意味着很多企業並不需要浪費資源投入到基礎模型當中，因此在DeepSeek風靡全球后，關於語言大模型最后只會剩下三四家的説法，甚囂塵上。梅花創投創始人吳世春認為大模型會呈現「3+1」的狀態，即阿里、騰訊、字節跳動和DeepSeek。

那未來，AI視頻行業是否會像大語言模型一樣，最終只剩下幾家留在牌桌上，專注做基礎模型研發的呢？

在朱軍看來，大概率不會出現一家獨大的情況。「今天的視頻大模型發展大部分是階段性層面，目前已經可以服務專業用户，並生成好的內容，但整體上，模型仍有很大提升空間，需要從效率、成本等方面的突破，目前這個賽道還沒到很擁擠的一個狀態。」

另外，他還判斷視頻領域很難出現類似DeepSeek這種「靠效率遙遙領先」的模型，因為相較於語言模型，視頻生成模型起步稍晚，業內已經形成了對效率優化的共識，未來則更期待讓視頻模型走向「更可控、更好用、每個人都能用」。

在郭濤看來，行業真正的「DeepSeek時刻」需要滿足三大條件：生成視頻時長突破1分鍾且畫質達到4K工業級標準，推理成本控制在1元/分鍾以內，以及出現日活千萬級的爆款應用。

誰能成為AI視頻大模型賽道的「DeepSeek」？目前各家還都在路上。

AI視頻大模型之爭：誰能成為下一個DeepSeek

成本和商業化的「魔咒」

「一家獨大」的概率不高

推薦文章

美股機會日報 | 凌晨3點！美聯儲將公佈1月貨幣政策會議紀要，納指期貨漲近0.5%；13F大曝光！巴菲特連續三季減持蘋果

美股機會日報 | 阿里發佈千問3.5！性能媲美Gemini 3；馬斯克稱Cybercab將於4月開始生產

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意

財報前瞻 | 英偉達Q4財報放榜在即！高盛、瑞銀預計將大超預期，兩大關鍵催化將帶來意外驚喜？