熱門資訊> 正文
2025-10-16 15:52
鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
硬剛Sora2,谷歌剛剛發佈新動作——Veo3.1。
時隔五個月的更新,Veo3.1在創意控制方面帶來了更多功能改進:
可以更深入地理解指令,捕捉更為真實的紋理,並增強圖像到視頻的功能。
其中最值得關注的是,和Sora2一樣,這次Veo3.1新增支持音頻生成。
(Sora2:完了,這波真衝我來的……)
同樣都強調音視頻一體化生成,突出物理真實性,追求相同的複雜長視頻,且都是文生+圖生視頻模型。
還有谷歌和OpenAI「恩怨情仇」這層關係在,Sora2和Veo3.1妥妥的天選對家。
不過至於他倆誰更強,還得實測見真章。
電影製作級的創意控制
據官方介紹,Veo3.1的此次更新,主要目標還是為電影製作人、藝術創作者提供更為完整的故事敍事和創意控制。
這也是過去幾個月里他們從Flow得到的經驗之談——短短五個月,Flow共計生成超2.75億個視頻,其中用户集中反映Veo3真實尚可、藝術欠佳。
於是Veo3.1應運而生。
首先是備受矚目的音頻能力,在Veo3基礎之上,將音頻生成引入原有的「成分到視頻」、「幀到視頻」和「擴展」能力中。
成分到視頻:用户可以同時使用多個不同人物或物體的參考圖像,來控制角色和畫面風格,並通過Veo3.1將圖像整合在一個帶有完整音頻的場景中。
幀到視頻:通過提供首幀和尾幀圖像,Veo3.1將無縫補充中間細節,構建起完整故事內容,非常適用於畫面轉場過渡。
場景擴展:基於視頻的最后一秒,延續故事背景生成更長的片段,最長可持續一分鍾或更久,同時保持人物動作一致性,這將有利於帶時長需求的定點鏡頭。
另外,Veo3.1也引入了更為精確的編輯能力。
通過「插入」功能,可以向任意場景添加任意新元素,無論是對細節的打磨還是補充場景豐富度,Veo3.1都能輕松搞定。
同時,Veo3.1還在場景陰影、照明等複雜環境中做了進一步優化,能夠確保元素添加足夠自然。
如果想要刪除一些不需要的對象或字符,通過重建周圍環境,Veo3.1現在也能做到。
目前,Veo3.1已經上線Flow,用户也可以通過Gemini API、Vertex AI和Gemini app搶先體驗。
Sora2和Veo3.1硬碰硬
不過想必大家最關心的還是,Sora2和Veo3.1相比,誰更強?
在兩個模型中使用相同的提示:在堵車時生成一輛飛天汽車。
顯然Veo3.1在畫面真實性上效果更佳,無論是對車輛細節的刻畫,還是車輛運行過程中周圍環境的變化,Veo3.1都處理得更好。
而且在合成音效上,Veo3.1的視頻中也能明顯聽到汽車發動的引擎聲。
再比如説,讓大猩猩和猴子們一起唱英文歌。
Sora2和Veo3.1走得還是兩種截然不同的音樂風格,一個走抒情路線一個西海岸嘻哈。
整體來看,Veo3.1的畫面飽和度更高,有好萊塢動畫的feel,而Sora2不愧於AI版抖音的名號,短視頻音樂主包的味兒很濃。
Sora2中的猴子們都在充當樂手各司其職,而Veo3.1中的猴子更多的是氛圍擔當,畫面后期還出現了一處小bug——樹干上的三隻猴子動作在后期趨向同質化。
不過有一説一,Veo3.1在光線處理上確實yyds。
那麼在動漫風格上,又表現如何呢?
老實説,有種國漫VS日漫的感覺……
Sora2的故事情節更好,表情也相對自然,完成度比Veo3.1更高。
另外,也有網友表示Sora2比Veo3.1更擅長人物的位置關係,想象力也會更加豐富,但是文生視頻上Veo3.1更優。
或許正如網友總結的那樣:二者各有優劣,不能説某一方完全壓倒性勝利,各自有自己所擅長的和待改進的地方。
谷歌強調物理現實世界,Sora優先考慮娛樂性。
那麼你會更傾向於哪一個呢?歡迎在評論區留言討論。
參考鏈接:
[1]https://blog.google/technology/ai/veo-updates-flow/
[2]https://x.com/biz_art_fun/status/1978607050017120470
[3]https://x.com/kongmindset/status/1978558207510639066
[4]https://x.com/SSSS_CRYPTOMAN/status/1978596075788534107
(聲明:本文僅代表作者觀點,不代表新浪網立場。)