繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

谷歌Veo 3.1來了,但來得似乎有點倉促

2025-10-16 18:31

當地時間 10 月 15 日,就在 OpenAI 於上月底推出全新的 Sora 2 后不到三周,谷歌也端出了自家視頻生成模型的最新版本——Veo 3.1。

根據谷歌官方博客公佈的信息,Veo 3.1 作為今年 5 月推出的 Veo 3 的迭代更新,主打「更豐富的音頻、更強的敍事控制和增強的真實感」。這次更新同步登陸了谷歌旗下的多個平臺,包括面向普通創作者的 Flow 影視製作工具、供開發者使用的 Gemini API 以及企業級的 Vertex AI 平臺。

從技術規格上看,Veo 3.1 延續了前代的基礎架構,支持 720p 和 1080p 兩種分辨率輸出,幀率固定在 24fps。單次生成可以選擇 4 秒、6 秒或 8 秒三種時長,通過「Extend」延展功能,用户理論上可以將視頻延長至 148 秒。

(來源:Google)

音頻能力的提升是 Veo 3.1 此次更新的重點之一。在之前的版本中,諸如「Frames to Video」(首尾幀插值)、「Ingredients to Video」(多圖像合成)和「Extend」(場景延展)等功能都不支持原生音頻生成,用户必須在后期手動添加配樂或音效。現在這些功能全部打通了音頻通道,可以根據畫面內容自動生成對應的環境音、對話和音效。

此次更新中,谷歌還引入了幾項新的編輯功能。「Insert」功能允許用户向現有場景中添加任何元素——從寫實的細節到奇幻的生物都可以,系統會自動處理陰影和場景光照,使新增內容能夠自然融入。還有」Remove「讓用户可以無縫移除場景中的任意對象或角色,系統會重建背景和周圍環境。這些功能如果成熟,將極大地改變視頻后期製作的工作流程,但目前「Remove」功能尚未在 Flow 中上線,依舊處於「即將到來」的狀態中。

(來源:Google)

值得一提的是,Veo 3.1 終於開始支持豎屏 16:9 視頻的生成。此前 Veo 3 只能輸出橫屏 720p 內容,這在以 TikTok 和 Instagram Reels 為代表的短視頻時代顯得有些格格不入。谷歌此前曾承諾將 Veo 的視頻生成能力整合到 YouTube Shorts 中,支持豎屏格式的 Veo 3.1 或許正是為兑現這一承諾做準備。

不過,從目前的社區實測與反饋來看,除了功能上的豐富,Veo 3.1 在生成質量上貌似沒有特別大的提升(畢竟 Veo 3 本身的質量其實已經不錯了)。AI 工具公司 Otherside AI 的創始人 Matt Shumer 在 X 上直言不諱地表達了失望,他認為 Veo 3.1「明顯不如 Sora 2」,並且「價格貴得多」。

圖丨相關推文(來源:X) 圖丨相關推文(來源:X)

有博主在詳細測試后指出,Veo 3.1 在音效和對話生成上確有改進,特別是環境音的空間感更強了,但系統仍然缺乏自定義語音支持,用户無法選擇特定的生成語音風格,這對需要品牌一致性的商業項目來説是個硬傷。當攝像機角度變化時,Veo 3.1 生成的人物面部特徵和服裝細節容易出現不連貫,需要創作者精心設計提示詞來規避,而 Sora 2 在這方面的處理要自然得多。

筆者也進行了一些簡單的測試,發現 Veo 3.1 在畫面精緻程度、物理真實性等方面維持了 Veo 3 一貫的出色表現。

例如在駕駛跑車的場景中,它的表現依舊出色。無論是車身的光澤、海邊公路的光影變化,還是高速行駛帶來的動態模糊,Veo 3.1 都處理得比較到位,延續了它在製作電影感、廣告級大片上的優勢。

(來源:Veo 3.1 生成)

在之前 Sora 2 上爆火的「AI 街頭採訪」這類場景里,Veo 3.1 的表現也相當不錯。從我生成的視頻來看,人物的口型與語音基本能對應上,表情和神態也比較自然,背景的路人活動也合情合理,沒有出現明顯的穿幫。

(來源:Veo 3.1 生成)

但一旦場景變得更復雜,尤其是在短視頻場景下,其短板就開始暴露了...

當筆者嘗試生成一個老年人在網吧打遊戲的段子視頻,雖然主要的內容都已經實現,但細節上的毛病不少,視頻里出現的中文文字依舊是亂碼。

(來源:Veo 3.1 生成)

更重要的是,作為主打功能的音頻,表現很不穩定。有時生成的視頻完全沒聲音;有時雖然有對話,但個別(中文)字詞的讀音明顯是錯的,聽起來非常彆扭。

(來源:Veo 3.1 生成)

有網友就評價道,Veo 的視頻像是高預算製作的廣告片,畫面精緻但總有種「太完美」的疏離感(以及偶爾的「油膩感」);Sora 2 則更像是 TikTok 或 Instagram Reels 上的素人視頻,有瑕疵、有抖動,但恰恰因此顯得真實可信(而且 Sora 2 那種與生俱來的、莫名的幽默感,似乎還沒有其他視頻生成軟件能夠匹敵)。這種差異在生成社交媒體內容時尤為明顯——當用户需要那種手持拍攝的即興感時,Veo 的「電影化」反而成了負擔。筆者猜測,某種程度上,這可能也與 Veo 3 的訓練數據來自 YouTube 而非 TikTok 等短視頻平臺有關。

總體來看,Veo 3.1 更多的是在工具性上的豐富,對於需要高質量商業素材、穩定視覺風格的專業用户來説,它依然是可靠的選擇。但如果目標是製作社交媒體爆款,需要真人視頻的隨性感,市場上已經有了更合適的選項。畢竟它也只是 0.1 的小版本提升,更大幅度的提高,可能還是要在 Veo 4 上才能看到了。

參考資料:

1.https://blog.google/technology/ai/veo-updates-flow/

2.https://venturebeat.com/ai/google-releases-new-ai-video-model-veo-3-1-in-flow-and-api-what-it-means-for

3.https://x.com/mattshumer_/status/1978503288992461205

運營/排版:何晨龍

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。