熱門資訊> 正文
2025-04-18 15:52
文|周鑫雨
編輯|蘇建勛
2025年4月中旬,快手和字節這兩個老對手,在AI視頻生成領域,再次狹路相逢。
先是4月14日,字節跳動的視頻生成基礎模型Seaweed,低調上線了官網,還釋出了技術報告。
△Seaweed生成的視頻。圖源:Seaweed官網
「四兩撥千斤」,是字節這次在視頻領域,想要達到的效果。首發的模型Seaweed-7B,不僅用70億的參數,實現了超越140億參數同類模型的效果,訓練效率也相當高:同類模型的訓練普遍要百萬GPU小時,Seaweed-7B只用了66.5萬 H100 GPU小時。
Seaweed-7B訓練效率。
相比字節的低調,快手想在視頻生成領域營造的聲勢,要浩大的多。
4月15日,在發佈會上,快手高級副總裁、主站業務與社區科學線負責人蓋坤,對着到場的幾百人,用極高的評價為快手在視頻生成領域的成績定調:
「‘可靈’吹響了整個視頻生成賽道的挑戰哨。」「在我們之后,各個廠商都開始發視頻生成模型。」
的確,快手在2024年6月6日的視頻生成模型「可靈」,在一眾「Sora期貨」中,靠着大方的免費試用,創造了上線三個月服務超260萬用户的記錄。
這也是字節和快手在視頻領域的首次交手。「可靈」的發佈,一度將字節置於追趕者的位置。直到2024年11月8日,字節纔回到視頻領域第一梯隊:Seaweed和PixelDance上線了視頻生成平臺即夢AI。
不少業內人給出的評價是:2024年,在視頻性能上,奮起猛追的字節,最后與快手基本打平。
一年后的這次同台較量,快手顯然也不肯讓出技術第一的位置。
「全球大幅領先。」「持續領先。」「請允許我把這兩句話再重複一遍。」
交出新答卷時,蓋坤的幾句話再次炒熱了場子。他宣佈了快手在多模態領域的最新探索成果:圖像生成基座模型「可圖2.0」,視頻生成基座模型「可靈2.0」,以及多模態編輯功能MVL。
△「可靈2.0」生成的視頻。圖源:快手
在視頻生成能力上,「可靈2.0」的文生視頻和圖生視頻能力,均超過了谷歌的視頻模型Veo2。在和老對手Sora的較量中,「可靈2.0」文生視頻模型的勝負比甚至達到了367%。
「可靈2.0」能力。
DeepSeek的掀桌,已經讓行業意識到,模型決定了AI產品的上限。2025年,不少廠商的動作都是:迴歸模型。
字節和快手,當下對AI視頻生成產品的野望並不相同。據瞭解,字節對「即夢」的期望,是AI時代的抖音,一個未來更ToC的產品。而快手,則將商業化的希望,主要押注在B端。
即便如此,2025年,兩家廠商的共識依然是:打磨視頻基座模型,搶灘第一梯隊。
據《晚點》報道,字節圖像視頻創作平臺「即夢」負責人張楠的2025年OKR,其中一條為重點打磨模型效果。2025年「可靈」團隊的目標,也濃縮在蓋坤說出的4個字中:「持續領先」。
對於字節和快手而言,至少在技術層面,視頻生成領域的戰火只會愈燃愈旺。
4月的這次「交手」,對字節快手來説,絕不僅僅是一次視頻模型性能的比拼。
視頻模型落地難,已經是老生常談的困境。除了模型效果不及預期外,貴,是視頻模型的通病。一個典型的案例是,爲了覆蓋高昂的推理成本,OpenAI Sora推出的訂閲費,高達200美元。
可見的是,相較於「炫技」的2024年,2025年的視頻模型競技場,更突出一個實用和實惠。
比如,字節的Seaweed-7B雖然在性能上略遜於快手的上一代模型「可靈1.6」,但勝在部署成本相當低:僅40GB顯存的單GPU,就能實現高分辨率(1280x720)視頻的生成。
這意味着,中小團隊和個人創作者,也能負擔得起AI視頻創作。
在實用性上,字節和快手的共識是:只有一個視頻生成模型,目前是無法滿足用户的創作需求的。
「可靈2.0」的發佈會上,快手同時發佈了圖像生成模型「可圖2.0」。這個增強了指令遵循能力和審美能力的模型,在競技場上超越了Midjourney v7、Rave和FLUX1.1 pro三個主流模型。
△「可圖2.0」生成的圖片,Prompt:擺滿了白色桌子的宴會廳,周圍坐着的人在享用一頓美餐。圖源:快手
在快手技術副總裁、可靈AI負責人張迪看來,圖像能力,是視頻模型落地中不可缺少的一步。
他舉了一組數據:用「可靈」生成的視頻中,圖生視頻佔到了85%。圖生視頻的高比例説明,在視頻創作的實際過程中,更多的用户青睞於用圖片確定風格、添加關鍵幀,以獲取更為穩定的視頻生成效果。
「可靈」這次發佈的「多模態編輯MVL功能」,據工作人員介紹,也是爲了滿足創作者的實時視頻編輯需求。
多模態編輯MVL功能。
多模態編輯MVL功能支持的不僅僅是文字Prompt,還支持圖像和視頻模態的動作描述文件。比如,用户可以通過上傳一段新視頻,將新視頻中的人物,添加到原有視頻上。
快手注重圖像,字節則發揮了文本處理上的優勢。Seaweed-7B結合了字節的「長上下文調優技術」和長敍述視頻生成技術「VideoAuteur」,讓生成的視頻可以基於用户的全局文本描述和分鏡描述,保持一致性。
字節和快手,在視頻領域登頂的野望相同,但其折射出的業務處境,卻是不同的。
大眾耳熟能詳的「精兵作戰」的故事之外,「可靈」從誕生到出圈,在快手的業務發展軌跡中,帶有一定的偶然性。
據《智能涌現》瞭解,直到2024年初,文生視頻的一項關鍵技術,才被可靈團隊攻破。2024年3月,蓋坤才第一次見到「可靈」的demo。
公司對AI的商業化預期,本來也並不高。《智能涌現》獲悉,快手商業化業務負責人王劍偉(Thomas)在2024年Q4的OKR中,「AI商業化」並非「O(Objectives,目標)」,僅僅是「增長」下的一個「kr( Key Results,關鍵成果)」。
快手已經很久沒有新故事了。作為同樣靠短視頻業務成長起來的互聯網公司,快手的業務版圖,相較於不斷開疆拓土的字節,並不廣闊。直到2023年,快手營收的核心,還是圍繞短視頻平臺的線上營銷、直播和電商。
但「可靈」的出現,讓快手看到了短視頻之外的新增長曲線。
快手財報顯示,從2024年9月開放API服務,到2025年2月,可靈AI的累計營收已經超過1億元。在用户層面,蓋坤在這次發佈會上透露,目前「可靈」已經擁有2223萬用户,月活用户增長了25倍,全球的企業和開發者客户數量,也已經超過了15萬。
不僅自己造血,「可靈」也在撬動快手的其他業務。快手商業化營銷服務平臺「磁力引擎」的一名員工曾對《智能涌現》表示,「可靈」給快手的廣告業務帶來了明顯的增長:
「大客户每個月花十幾萬做投流,廣告物料就可以用AI生成。一個剪輯師一天最多剪10條廣告物料,但是可靈可以生成幾千條,我們一天內就能把幾千條廣告物料,用算法分發到用户的推薦流里。」
「可靈2.0」的發佈,對快手來説,是「全村希望」的延續。
比起單點奇襲的快手,字節在視頻生成賽道,有着更重的好學生包袱。
兩年來,從人、算力,到金錢,字節在AI領域的重兵投入有目共睹。但文本模型領域有DeepSeek,視頻模型領域有可靈,語音模型和MiniMax的海螺AI打得難捨難分——字節什麼都抓了,但好像什麼也沒抓牢。
痛定思痛,2025年開春以來,字節內部已經掀起了一場改革。2025年3月,AI部門「Seed」的新帥、原Google Fellow吳永輝在部門全員會上提到,要進一步加強組織文化,打造開放、包容、自信的團隊研究氛圍;要提高技術開放程度。
Seaweed-7B的發佈,是字節AI改革后的一個註腳。
繼3月豆包首次公開文生圖技術報告后,Seaweed也成了字節在視頻領域首個公開技術報告的模型。值得注意的是,曾被字節視作機密的研究團隊,蔣路、馮佳時、楊振恆、楊建超,這次也以技術報告署名的形式,首次集體走到臺前。
重振旗鼓后,雙方的較量,纔剛剛開始。
歡迎交流!