谷歌Veo 3.1來了，但來得似乎有點倉促

2025-10-16 18:31

谷歌(GOOG) 0
谷歌A(GOOGL) 0

當地時間 10 月 15 日，就在 OpenAI 於上月底推出全新的 Sora 2 后不到三周，谷歌也端出了自家視頻生成模型的最新版本——Veo 3.1。

根據谷歌官方博客公佈的信息，Veo 3.1 作為今年 5 月推出的 Veo 3 的迭代更新，主打「更豐富的音頻、更強的敍事控制和增強的真實感」。這次更新同步登陸了谷歌旗下的多個平臺，包括面向普通創作者的 Flow 影視製作工具、供開發者使用的 Gemini API 以及企業級的 Vertex AI 平臺。

從技術規格上看，Veo 3.1 延續了前代的基礎架構，支持 720p 和 1080p 兩種分辨率輸出，幀率固定在 24fps。單次生成可以選擇 4 秒、6 秒或 8 秒三種時長，通過「Extend」延展功能，用户理論上可以將視頻延長至 148 秒。

（來源：Google）

音頻能力的提升是 Veo 3.1 此次更新的重點之一。在之前的版本中，諸如「Frames to Video」（首尾幀插值）、「Ingredients to Video」（多圖像合成）和「Extend」（場景延展）等功能都不支持原生音頻生成，用户必須在后期手動添加配樂或音效。現在這些功能全部打通了音頻通道，可以根據畫面內容自動生成對應的環境音、對話和音效。

此次更新中，谷歌還引入了幾項新的編輯功能。「Insert」功能允許用户向現有場景中添加任何元素——從寫實的細節到奇幻的生物都可以，系統會自動處理陰影和場景光照，使新增內容能夠自然融入。還有」Remove「讓用户可以無縫移除場景中的任意對象或角色，系統會重建背景和周圍環境。這些功能如果成熟，將極大地改變視頻后期製作的工作流程，但目前「Remove」功能尚未在 Flow 中上線，依舊處於「即將到來」的狀態中。

（來源：Google）

值得一提的是，Veo 3.1 終於開始支持豎屏 16:9 視頻的生成。此前 Veo 3 只能輸出橫屏 720p 內容，這在以 TikTok 和 Instagram Reels 為代表的短視頻時代顯得有些格格不入。谷歌此前曾承諾將 Veo 的視頻生成能力整合到 YouTube Shorts 中，支持豎屏格式的 Veo 3.1 或許正是為兑現這一承諾做準備。

不過，從目前的社區實測與反饋來看，除了功能上的豐富，Veo 3.1 在生成質量上貌似沒有特別大的提升（畢竟 Veo 3 本身的質量其實已經不錯了）。AI 工具公司 Otherside AI 的創始人 Matt Shumer 在 X 上直言不諱地表達了失望，他認為 Veo 3.1「明顯不如 Sora 2」，並且「價格貴得多」。

圖丨相關推文（來源：X）

有博主在詳細測試后指出，Veo 3.1 在音效和對話生成上確有改進，特別是環境音的空間感更強了，但系統仍然缺乏自定義語音支持，用户無法選擇特定的生成語音風格，這對需要品牌一致性的商業項目來説是個硬傷。當攝像機角度變化時，Veo 3.1 生成的人物面部特徵和服裝細節容易出現不連貫，需要創作者精心設計提示詞來規避，而 Sora 2 在這方面的處理要自然得多。

筆者也進行了一些簡單的測試，發現 Veo 3.1 在畫面精緻程度、物理真實性等方面維持了 Veo 3 一貫的出色表現。

例如在駕駛跑車的場景中，它的表現依舊出色。無論是車身的光澤、海邊公路的光影變化，還是高速行駛帶來的動態模糊，Veo 3.1 都處理得比較到位，延續了它在製作電影感、廣告級大片上的優勢。

（來源：Veo 3.1 生成）

在之前 Sora 2 上爆火的「AI 街頭採訪」這類場景里，Veo 3.1 的表現也相當不錯。從我生成的視頻來看，人物的口型與語音基本能對應上，表情和神態也比較自然，背景的路人活動也合情合理，沒有出現明顯的穿幫。

（來源：Veo 3.1 生成）

但一旦場景變得更復雜，尤其是在短視頻場景下，其短板就開始暴露了...

當筆者嘗試生成一個老年人在網吧打遊戲的段子視頻，雖然主要的內容都已經實現，但細節上的毛病不少，視頻里出現的中文文字依舊是亂碼。

（來源：Veo 3.1 生成）

更重要的是，作為主打功能的音頻，表現很不穩定。有時生成的視頻完全沒聲音；有時雖然有對話，但個別（中文）字詞的讀音明顯是錯的，聽起來非常彆扭。

（來源：Veo 3.1 生成）

有網友就評價道，Veo 的視頻像是高預算製作的廣告片，畫面精緻但總有種「太完美」的疏離感（以及偶爾的「油膩感」）；Sora 2 則更像是 TikTok 或 Instagram Reels 上的素人視頻，有瑕疵、有抖動，但恰恰因此顯得真實可信（而且 Sora 2 那種與生俱來的、莫名的幽默感，似乎還沒有其他視頻生成軟件能夠匹敵）。這種差異在生成社交媒體內容時尤為明顯——當用户需要那種手持拍攝的即興感時，Veo 的「電影化」反而成了負擔。筆者猜測，某種程度上，這可能也與 Veo 3 的訓練數據來自 YouTube 而非 TikTok 等短視頻平臺有關。

總體來看，Veo 3.1 更多的是在工具性上的豐富，對於需要高質量商業素材、穩定視覺風格的專業用户來説，它依然是可靠的選擇。但如果目標是製作社交媒體爆款，需要真人視頻的隨性感，市場上已經有了更合適的選項。畢竟它也只是 0.1 的小版本提升，更大幅度的提高，可能還是要在 Veo 4 上才能看到了。

參考資料：

1.https://blog.google/technology/ai/veo-updates-flow/

2.https://venturebeat.com/ai/google-releases-new-ai-video-model-veo-3-1-in-flow-and-api-what-it-means-for

3.https://x.com/mattshumer_/status/1978503288992461205

運營/排版：何晨龍

谷歌Veo 3.1來了，但來得似乎有點倉促

推薦文章

美股機會日報 | 凌晨3點！美聯儲將公佈1月貨幣政策會議紀要，納指期貨漲近0.5%；13F大曝光！巴菲特連續三季減持蘋果

美股機會日報 | 阿里發佈千問3.5！性能媲美Gemini 3；馬斯克稱Cybercab將於4月開始生產

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意

財報前瞻 | 英偉達Q4財報放榜在即！高盛、瑞銀預計將大超預期，兩大關鍵催化將帶來意外驚喜？