文字指令就能「P視頻」實測快手可靈O1：視頻版Nano Banana Pro來了？

2025-12-04 23:46

一度被譽為「地表最強AI（人工智能）生圖模型」的谷歌Nano Banana Pro，其引發的新一輪技術熱潮尚有余温，視頻生成模型「大混戰」又在年末迎來高潮。

先是海外AI視頻初創公司Runway發佈了新一代視頻模型Gen-4.5，並在基準測試中超越谷歌的Veo3登頂。12月1日，快手可靈AI又丟出「王炸」，上線「全球首個統一多模態視頻大模型」可靈O1，再次強化了其作為「生產力工具」的一面。

火藥味很濃。

一般而言，普通C端（消費者）用户想生成相對較複雜和精細的視頻，往往需要使用生圖模型、視頻生成模型以及剪輯軟件等進行製作。實際操作中，多模型、多軟件的切換比較耗時且繁瑣，視頻效果也可能會在流轉中出現主體一致性差、動作崩掉等情況，需要重新「抽卡」（需要通過反覆嘗試、調整提示詞或參數來獲得理想作品的過程）。

「統一多模態視頻大模型」據稱主要解決的就是這個問題。

事實上，從去年開始，視頻生成領域的競爭就已進入白熱化。今年，國外的Sora2、Veo3逐漸確立統治地位，國內有多輪大版本更新且商業化速度一騎絕塵的可靈不斷出招。時至年末，新一輪混戰來襲，誰是「地表最強視頻生成模型」，我們離答案還有多遠？《每日經濟新聞》記者對可靈O1進行了實測。

支持多模態，輸入文字指令就能「P視頻」

《每日經濟新聞》記者實測發現，可靈O1首次將參考生視頻、文生視頻、首尾幀生視頻、視頻內容增刪及修改變換等多任務，融合於大一統模型之中。

最重要的是，完成上述任務可以「全流程語義控制」，用一句話就可以生成或修改視頻。圖片、視頻、主體、文字等都可以被視為指令，可靈O1可綜合理解用户上傳的照片、視頻或主體（一個角色的不同視角）的意圖，生成視頻的各種細節。

具體而言，記者實測發現，在可靈O1模型的多模態指令輸入區，可以上傳1到7張參考圖或主體，自由組合人物、角色、道具、服裝、場景等元素，讓靜態元素在視頻中動起來。

視頻生成后，也可以在輸入區進行指令的變換，對原視頻進行主體與背景的增加、修改、刪除，也可以修改風格、顏色、材質、視角等。由於支持多模態輸入，這個修改的過程可以由文字、圖片、主體的輸入語言任意組合。

比如，在輸入區輸入「刪除【視頻】中道路兩側的路人，保留馬車」，修改后的視頻保持了主體的一致性，對被刪除的內容進行了相對乾淨的抹除。

圖片來源：可靈O1測試截圖

除了用文字指令刪除、增加內容外，還可以用圖片指令修改視頻的主體等。比如，輸入「將【視頻】中的雕像修改爲【圖片】中的姜餅人」，生成的視頻保持了原視頻的運鏡邏輯、背景一致，主體也按要求進行了替換。

圖片來源：可靈O1測試截圖

此外，可靈O1還可以改變視頻的視角、景別，比如遠景變特寫、俯拍變仰拍等，並支持用參考視頻內容進行新鏡頭的生成等。

如記者輸入圖片和視頻兩段素材，讓圖片中的靜態主體以視頻主體的舞蹈方式動起來，結果生成視頻對原圖片打光、色調以及主體形象的還原度相對較高，但也有一些小瑕疵，如手部細節模糊、人物身體比例不協調等，還需要重複「抽卡」。

視頻「一致性」有所提高，指令還可疊加使用

體驗時記者注意到，可靈O1強化了輸入圖像及視頻的理解，支持多視角圖創建主體。也就是説上傳一個角色的多視角照片，其可以在不同鏡頭、不同光照與風格下保持「同一個人」的特徵不變。

比如，記者輸入近期大熱電影《瘋狂動物城》主角「朱迪」的多張不同主體視角圖片，在后期進行視頻生成時，無論主角、道具、場景以及運鏡如何變化，朱迪的主體形象都能夠保持相對穩定。

不過，當記者添加了狐狸尼克的圖片參考並進行更復雜的視頻輸出時，主體之外的人物形象出現不合邏輯的動作、形態呈現，甚至有一組舞會成員隨着鏡頭推移，從雙人跳舞變成了三人跳舞，需要重複「抽卡」。

圖片來源：可靈O1測試截圖

此外，記者體驗時還發現，不僅限於單個角色或物品，可靈O1還具備多主體融合能力。可以自由組合多個不同主體，或將主體與參考圖混搭。這種能力適用於視頻里呈現複雜的羣像戲或互動場景中，模型能夠獨立鎖定及保持每一個角色或道具的特徵。不過，這個功能需要提供高清、主體明確的圖片，否則需要重複「抽卡」。而在複雜的互動場景下，多個主體的互動指令也需要更明確地描述，不然就難以避免重複「抽卡」。

在實際場景落地中，如宣傳視頻就可以直接上傳商品圖、場景圖等，通過多個主體相互組合快速完成視頻生成。

圖片來源：可靈O1測試截圖

記者發現，除單點任務外，可靈O1還支持組合不同的技能，允許把各種指令疊加使用，一次性生成出來。比如，可以組合參考圖片和修改視頻風格，兩個動作同時進行。

這些功能的升級，相對能夠拓寬可靈的場景應用，特別是作為「生產力工具」，可應用於影視創作、創意廣告、服裝穿搭參考視頻、視頻后期製作等。

不過，有不少網友表示，目前可靈視頻O1模型的使用價格較貴，視頻生成、修改成本高。據瞭解，視頻價格取決於輸入情況和生成視頻長度——無視頻輸入時，8靈感值/秒，有視頻輸入時，12靈感值/秒。以單次購買一個月的可靈黃金會員價格為例，66元/月、每月有660靈感值。如無視頻輸入，生成一個高品質5秒視頻，大約需要40靈感值。

技術狂歡背后：可靈年收入即將破10億元，C端市場待墾

視頻、圖像O1模型上新后，12月3日，可靈又官宣推出視頻生成2.6模型。記者注意到，該模型提供了「音畫同出」能力，升級了文生音畫、圖生音畫兩大功能。目前，語音支持生成中文與英文，生成的視頻長度最長可達10秒。

12月4日晚，新一代可靈數字人2.0宣佈即日起正式全量上線。上傳角色圖、添加配音內容、描述角色表現，三步即可生成。相對舊版，新版在表現力、手部及口型精準控制上有提升，且支持最長5分鍾的視頻時長。

除了在年末迎來「技術周」，前不久三季度財報披露時，可靈宣佈2025年收入將達10億元的商業化進程，再次引起不小的市場反應。

值得一提的是，目前可靈用户構成仍以B端客户為主。而隨着Open AI正式發佈的第二代AI視頻生成模型Sora 2等將視頻生成與社交互動深度融合，C端消費級應用的落地進程明顯加快。

快手科技創始人兼首席執行官程一笑在三季報電話會上也指出，「當前我們的主要精力依然是面向專業創作者，但未來也會將可靈的技術能力進一步產品化，與社交互動結合，加速C端應用的商業化。」這也回答了可靈未來增長方向的問題。

工信部信息通信經濟專家委員會委員盤和林此前接受《每日經濟新聞》記者微信採訪時表示，視頻生成賽道的最終受益者，可能還是內容創作平臺，因為這些平臺具備兩樣東西：其一，是最相關的用户羣體，未來視頻生成可能更多還是為短視頻自媒體服務；其二是最大規模的用户受眾，生成式AI帶來的內容創作上的升級，會進一步影響創作者和觀看者。

「未來，快手平臺上的創作者，需要藉助可靈這樣的AI工具來生成內容，或者至少輔助內容創作，這會大大提高平臺內容輸出的質量，從而更好地吸引用户，擴大快手在內容平臺領域的影響力。」盤和林如此補充。

封面圖片來源：可靈AI公眾號

文字指令就能「P視頻」 實測快手可靈O1：視頻版Nano Banana Pro來了？

推薦文章

華盛早報 | 科技股拋售潮再襲！納指盤中一度跌近3.6%；博通設立AI融資平臺，Anthropic成其大客户；英偉達、三星擴大合作至下一代Groq芯片

美股機會日報 | 半導體又爆利好！黃仁勛喊話「買入高通」，美光盤前再漲近5%；貝萊德發聲超配美股！堅定看好AI賽道

「下一站是物理AI」？黃仁勛「擴圈」加碼，這隻標的半月飆升近200%！還有哪些公司在悄悄發力？

華盛早報 | 英特爾大漲11%，斬獲谷歌芯片大單！獲黃仁勛力挺，高通盤后一度漲超8%；OpenAI稱已提交IPO申請

繼Anthropic之后，OpenAI也提交了美國IPO申請

高盛、摩根大通探索全新工具管控人工智能信貸風險

華爾街面臨「三重威脅」：伊戰風險、AI估值泡沫與美聯儲加息預期

黃仁勛抵達韓國 在首爾烤肉店與韓企眾掌門共進晚餐

文字指令就能「P視頻」實測快手可靈O1：視頻版Nano Banana Pro來了？

黃仁勛抵達韓國在首爾烤肉店與韓企眾掌門共進晚餐