字節快手，AI視頻「狹路又相逢」

2025-04-18 15:52

文｜周鑫雨‍‍

編輯｜蘇建勛

2025年4月中旬，快手和字節這兩個老對手，在AI視頻生成領域，再次狹路相逢。

先是4月14日，字節跳動的視頻生成基礎模型Seaweed，低調上線了官網，還釋出了技術報告。

△Seaweed生成的視頻。圖源：Seaweed官網

「四兩撥千斤」，是字節這次在視頻領域，想要達到的效果。首發的模型Seaweed-7B，不僅用70億的參數，實現了超越140億參數同類模型的效果，訓練效率也相當高：同類模型的訓練普遍要百萬GPU小時，Seaweed-7B只用了66.5萬 H100 GPU小時。

Seaweed-7B訓練效率。

相比字節的低調，快手想在視頻生成領域營造的聲勢，要浩大的多。

4月15日，在發佈會上，快手高級副總裁、主站業務與社區科學線負責人蓋坤，對着到場的幾百人，用極高的評價為快手在視頻生成領域的成績定調：

「‘可靈’吹響了整個視頻生成賽道的挑戰哨。」「在我們之后，各個廠商都開始發視頻生成模型。」

的確，快手在2024年6月6日的視頻生成模型「可靈」，在一眾「Sora期貨」中，靠着大方的免費試用，創造了上線三個月服務超260萬用户的記錄。

這也是字節和快手在視頻領域的首次交手。「可靈」的發佈，一度將字節置於追趕者的位置。直到2024年11月8日，字節纔回到視頻領域第一梯隊：Seaweed和PixelDance上線了視頻生成平臺即夢AI。

不少業內人給出的評價是：2024年，在視頻性能上，奮起猛追的字節，最后與快手基本打平。

一年后的這次同台較量，快手顯然也不肯讓出技術第一的位置。

「全球大幅領先。」「持續領先。」「請允許我把這兩句話再重複一遍。」

交出新答卷時，蓋坤的幾句話再次炒熱了場子。他宣佈了快手在多模態領域的最新探索成果：圖像生成基座模型「可圖2.0」，視頻生成基座模型「可靈2.0」，以及多模態編輯功能MVL。

△「可靈2.0」生成的視頻。圖源：快手

在視頻生成能力上，「可靈2.0」的文生視頻和圖生視頻能力，均超過了谷歌的視頻模型Veo2。在和老對手Sora的較量中，「可靈2.0」文生視頻模型的勝負比甚至達到了367%。

「可靈2.0」能力。

DeepSeek的掀桌，已經讓行業意識到，模型決定了AI產品的上限。2025年，不少廠商的動作都是：迴歸模型。

字節和快手，當下對AI視頻生成產品的野望並不相同。據瞭解，字節對「即夢」的期望，是AI時代的抖音，一個未來更ToC的產品。而快手，則將商業化的希望，主要押注在B端。

即便如此，2025年，兩家廠商的共識依然是：打磨視頻基座模型，搶灘第一梯隊。

據《晚點》報道，字節圖像視頻創作平臺「即夢」負責人張楠的2025年OKR，其中一條為重點打磨模型效果。2025年「可靈」團隊的目標，也濃縮在蓋坤說出的4個字中：「持續領先」。

對於字節和快手而言，至少在技術層面，視頻生成領域的戰火只會愈燃愈旺。

拼性能，更拼落地

4月的這次「交手」，對字節快手來説，絕不僅僅是一次視頻模型性能的比拼。

視頻模型落地難，已經是老生常談的困境。除了模型效果不及預期外，貴，是視頻模型的通病。一個典型的案例是，爲了覆蓋高昂的推理成本，OpenAI Sora推出的訂閲費，高達200美元。

可見的是，相較於「炫技」的2024年，2025年的視頻模型競技場，更突出一個實用和實惠。

比如，字節的Seaweed-7B雖然在性能上略遜於快手的上一代模型「可靈1.6」，但勝在部署成本相當低：僅40GB顯存的單GPU，就能實現高分辨率（1280x720）視頻的生成。

這意味着，中小團隊和個人創作者，也能負擔得起AI視頻創作。

在實用性上，字節和快手的共識是：只有一個視頻生成模型，目前是無法滿足用户的創作需求的。

「可靈2.0」的發佈會上，快手同時發佈了圖像生成模型「可圖2.0」。這個增強了指令遵循能力和審美能力的模型，在競技場上超越了Midjourney v7、Rave和FLUX1.1 pro三個主流模型。

△「可圖2.0」生成的圖片，Prompt：擺滿了白色桌子的宴會廳，周圍坐着的人在享用一頓美餐。圖源：快手

在快手技術副總裁、可靈AI負責人張迪看來，圖像能力，是視頻模型落地中不可缺少的一步。

他舉了一組數據：用「可靈」生成的視頻中，圖生視頻佔到了85%。圖生視頻的高比例説明，在視頻創作的實際過程中，更多的用户青睞於用圖片確定風格、添加關鍵幀，以獲取更為穩定的視頻生成效果。

「可靈」這次發佈的「多模態編輯MVL功能」，據工作人員介紹，也是爲了滿足創作者的實時視頻編輯需求。

多模態編輯MVL功能。

多模態編輯MVL功能支持的不僅僅是文字Prompt，還支持圖像和視頻模態的動作描述文件。比如，用户可以通過上傳一段新視頻，將新視頻中的人物，添加到原有視頻上。

快手注重圖像，字節則發揮了文本處理上的優勢。Seaweed-7B結合了字節的「長上下文調優技術」和長敍述視頻生成技術「VideoAuteur」，讓生成的視頻可以基於用户的全局文本描述和分鏡描述，保持一致性。

「全村的希望」和「一個都不能落下」

字節和快手，在視頻領域登頂的野望相同，但其折射出的業務處境，卻是不同的。

大眾耳熟能詳的「精兵作戰」的故事之外，「可靈」從誕生到出圈，在快手的業務發展軌跡中，帶有一定的偶然性。

據《智能涌現》瞭解，直到2024年初，文生視頻的一項關鍵技術，才被可靈團隊攻破。2024年3月，蓋坤才第一次見到「可靈」的demo。

公司對AI的商業化預期，本來也並不高。《智能涌現》獲悉，快手商業化業務負責人王劍偉（Thomas）在2024年Q4的OKR中，「AI商業化」並非「O（Objectives，目標）」，僅僅是「增長」下的一個「kr（ Key Results，關鍵成果）」。

快手已經很久沒有新故事了。作為同樣靠短視頻業務成長起來的互聯網公司，快手的業務版圖，相較於不斷開疆拓土的字節，並不廣闊。直到2023年，快手營收的核心，還是圍繞短視頻平臺的線上營銷、直播和電商。

但「可靈」的出現，讓快手看到了短視頻之外的新增長曲線。

快手財報顯示，從2024年9月開放API服務，到2025年2月，可靈AI的累計營收已經超過1億元。在用户層面，蓋坤在這次發佈會上透露，目前「可靈」已經擁有2223萬用户，月活用户增長了25倍，全球的企業和開發者客户數量，也已經超過了15萬。

不僅自己造血，「可靈」也在撬動快手的其他業務。快手商業化營銷服務平臺「磁力引擎」的一名員工曾對《智能涌現》表示，「可靈」給快手的廣告業務帶來了明顯的增長：

「大客户每個月花十幾萬做投流，廣告物料就可以用AI生成。一個剪輯師一天最多剪10條廣告物料，但是可靈可以生成幾千條，我們一天內就能把幾千條廣告物料，用算法分發到用户的推薦流里。」

「可靈2.0」的發佈，對快手來説，是「全村希望」的延續。

比起單點奇襲的快手，字節在視頻生成賽道，有着更重的好學生包袱。

兩年來，從人、算力，到金錢，字節在AI領域的重兵投入有目共睹。但文本模型領域有DeepSeek，視頻模型領域有可靈，語音模型和MiniMax的海螺AI打得難捨難分——字節什麼都抓了，但好像什麼也沒抓牢。

痛定思痛，2025年開春以來，字節內部已經掀起了一場改革。2025年3月，AI部門「Seed」的新帥、原Google Fellow吳永輝在部門全員會上提到，要進一步加強組織文化，打造開放、包容、自信的團隊研究氛圍；要提高技術開放程度。

Seaweed-7B的發佈，是字節AI改革后的一個註腳。

繼3月豆包首次公開文生圖技術報告后，Seaweed也成了字節在視頻領域首個公開技術報告的模型。值得注意的是，曾被字節視作機密的研究團隊，蔣路、馮佳時、楊振恆、楊建超，這次也以技術報告署名的形式，首次集體走到臺前。

重振旗鼓后，雙方的較量，纔剛剛開始。

歡迎交流！

字節快手，AI視頻「狹路又相逢」

拼性能，更拼落地

「全村的希望」和「一個都不能落下」

推薦文章

華盛早報 | 北水年內搶籌港股超3000億港元！布油三個月來首次跌破80美元；DeepSeek首次融資落地，估值超3300億元

美股前瞻 | 存儲瘋漲！大摩警告：硬盤短缺至少持續到2028年；SpaceX盤前一度大漲超11%

美伊和平協議簽署在即！油價暴跌背景下，港美股后市如何演繹？

華盛早報 | 美伊達成臨時停火協議！19日將正式簽署；SpaceX市值超臺積電躍居美股第六；英偉達時隔5年再發債！

美股前瞻 | 美伊和談引爆市場！納指期貨升逾2%；SpaceX盤前再升超5%，馬斯克豪言營收或達萬億美元！

華爾街如何操盤完成SpaceX史上最大規模IPO

美國堅持簽約時間表 伊朗提出不同協議版本 美伊談判疑雲密佈

特朗普稱美伊協議定於周日簽署 屆時霍爾木茲海峽將立即重開

美國堅持簽約時間表伊朗提出不同協議版本美伊談判疑雲密佈

特朗普稱美伊協議定於周日簽署屆時霍爾木茲海峽將立即重開