熱門資訊> 正文
2025-12-04 23:46
一度被譽為「地表最強AI(人工智能)生圖模型」的谷歌Nano Banana Pro,其引發的新一輪技術熱潮尚有余温,視頻生成模型「大混戰」又在年末迎來高潮。
先是海外AI視頻初創公司Runway發佈了新一代視頻模型Gen-4.5,並在基準測試中超越谷歌的Veo3登頂。12月1日,快手可靈AI又丟出「王炸」,上線「全球首個統一多模態視頻大模型」可靈O1,再次強化了其作為「生產力工具」的一面。
火藥味很濃。
一般而言,普通C端(消費者)用户想生成相對較複雜和精細的視頻,往往需要使用生圖模型、視頻生成模型以及剪輯軟件等進行製作。實際操作中,多模型、多軟件的切換比較耗時且繁瑣,視頻效果也可能會在流轉中出現主體一致性差、動作崩掉等情況,需要重新「抽卡」(需要通過反覆嘗試、調整提示詞或參數來獲得理想作品的過程)。
「統一多模態視頻大模型」據稱主要解決的就是這個問題。
事實上,從去年開始,視頻生成領域的競爭就已進入白熱化。今年,國外的Sora2、Veo3逐漸確立統治地位,國內有多輪大版本更新且商業化速度一騎絕塵的可靈不斷出招。時至年末,新一輪混戰來襲,誰是「地表最強視頻生成模型」,我們離答案還有多遠?《每日經濟新聞》記者對可靈O1進行了實測。
支持多模態,輸入文字指令就能「P視頻」
《每日經濟新聞》記者實測發現,可靈O1首次將參考生視頻、文生視頻、首尾幀生視頻、視頻內容增刪及修改變換等多任務,融合於大一統模型之中。
最重要的是,完成上述任務可以「全流程語義控制」,用一句話就可以生成或修改視頻。圖片、視頻、主體、文字等都可以被視為指令,可靈O1可綜合理解用户上傳的照片、視頻或主體(一個角色的不同視角)的意圖,生成視頻的各種細節。
具體而言,記者實測發現,在可靈O1模型的多模態指令輸入區,可以上傳1到7張參考圖或主體,自由組合人物、角色、道具、服裝、場景等元素,讓靜態元素在視頻中動起來。
視頻生成后,也可以在輸入區進行指令的變換,對原視頻進行主體與背景的增加、修改、刪除,也可以修改風格、顏色、材質、視角等。由於支持多模態輸入,這個修改的過程可以由文字、圖片、主體的輸入語言任意組合。
比如,在輸入區輸入「刪除【視頻】中道路兩側的路人,保留馬車」,修改后的視頻保持了主體的一致性,對被刪除的內容進行了相對乾淨的抹除。
除了用文字指令刪除、增加內容外,還可以用圖片指令修改視頻的主體等。比如,輸入「將【視頻】中的雕像修改爲【圖片】中的姜餅人」,生成的視頻保持了原視頻的運鏡邏輯、背景一致,主體也按要求進行了替換。
此外,可靈O1還可以改變視頻的視角、景別,比如遠景變特寫、俯拍變仰拍等,並支持用參考視頻內容進行新鏡頭的生成等。
如記者輸入圖片和視頻兩段素材,讓圖片中的靜態主體以視頻主體的舞蹈方式動起來,結果生成視頻對原圖片打光、色調以及主體形象的還原度相對較高,但也有一些小瑕疵,如手部細節模糊、人物身體比例不協調等,還需要重複「抽卡」。
視頻「一致性」有所提高,指令還可疊加使用
體驗時記者注意到,可靈O1強化了輸入圖像及視頻的理解,支持多視角圖創建主體。也就是説上傳一個角色的多視角照片,其可以在不同鏡頭、不同光照與風格下保持「同一個人」的特徵不變。
比如,記者輸入近期大熱電影《瘋狂動物城》主角「朱迪」的多張不同主體視角圖片,在后期進行視頻生成時,無論主角、道具、場景以及運鏡如何變化,朱迪的主體形象都能夠保持相對穩定。
不過,當記者添加了狐狸尼克的圖片參考並進行更復雜的視頻輸出時,主體之外的人物形象出現不合邏輯的動作、形態呈現,甚至有一組舞會成員隨着鏡頭推移,從雙人跳舞變成了三人跳舞,需要重複「抽卡」。
此外,記者體驗時還發現,不僅限於單個角色或物品,可靈O1還具備多主體融合能力。可以自由組合多個不同主體,或將主體與參考圖混搭。這種能力適用於視頻里呈現複雜的羣像戲或互動場景中,模型能夠獨立鎖定及保持每一個角色或道具的特徵。不過,這個功能需要提供高清、主體明確的圖片,否則需要重複「抽卡」。而在複雜的互動場景下,多個主體的互動指令也需要更明確地描述,不然就難以避免重複「抽卡」。
在實際場景落地中,如宣傳視頻就可以直接上傳商品圖、場景圖等,通過多個主體相互組合快速完成視頻生成。
記者發現,除單點任務外,可靈O1還支持組合不同的技能,允許把各種指令疊加使用,一次性生成出來。比如,可以組合參考圖片和修改視頻風格,兩個動作同時進行。
這些功能的升級,相對能夠拓寬可靈的場景應用,特別是作為「生產力工具」,可應用於影視創作、創意廣告、服裝穿搭參考視頻、視頻后期製作等。
不過,有不少網友表示,目前可靈視頻O1模型的使用價格較貴,視頻生成、修改成本高。據瞭解,視頻價格取決於輸入情況和生成視頻長度——無視頻輸入時,8靈感值/秒,有視頻輸入時,12靈感值/秒。以單次購買一個月的可靈黃金會員價格為例,66元/月、每月有660靈感值。如無視頻輸入,生成一個高品質5秒視頻,大約需要40靈感值。
技術狂歡背后:可靈年收入即將破10億元,C端市場待墾
視頻、圖像O1模型上新后,12月3日,可靈又官宣推出視頻生成2.6模型。記者注意到,該模型提供了「音畫同出」能力,升級了文生音畫、圖生音畫兩大功能。目前,語音支持生成中文與英文,生成的視頻長度最長可達10秒。
12月4日晚,新一代可靈數字人2.0宣佈即日起正式全量上線。上傳角色圖、添加配音內容、描述角色表現,三步即可生成。相對舊版,新版在表現力、手部及口型精準控制上有提升,且支持最長5分鍾的視頻時長。
除了在年末迎來「技術周」,前不久三季度財報披露時,可靈宣佈2025年收入將達10億元的商業化進程,再次引起不小的市場反應。
值得一提的是,目前可靈用户構成仍以B端客户為主。而隨着Open AI正式發佈的第二代AI視頻生成模型Sora 2等將視頻生成與社交互動深度融合,C端消費級應用的落地進程明顯加快。
快手科技創始人兼首席執行官程一笑在三季報電話會上也指出,「當前我們的主要精力依然是面向專業創作者,但未來也會將可靈的技術能力進一步產品化,與社交互動結合,加速C端應用的商業化。」這也回答了可靈未來增長方向的問題。
工信部信息通信經濟專家委員會委員盤和林此前接受《每日經濟新聞》記者微信採訪時表示,視頻生成賽道的最終受益者,可能還是內容創作平臺,因為這些平臺具備兩樣東西:其一,是最相關的用户羣體,未來視頻生成可能更多還是為短視頻自媒體服務;其二是最大規模的用户受眾,生成式AI帶來的內容創作上的升級,會進一步影響創作者和觀看者。
「未來,快手平臺上的創作者,需要藉助可靈這樣的AI工具來生成內容,或者至少輔助內容創作,這會大大提高平臺內容輸出的質量,從而更好地吸引用户,擴大快手在內容平臺領域的影響力。」盤和林如此補充。
封面圖片來源:可靈AI公眾號