繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

剛剛, AI 視頻王者大更新!硬剛 Sora,威爾史密斯吃麪更香了

2025-10-16 09:27

OpenAI 前不久剛推出了 Sora 2 視頻生成模型,勢頭相當兇猛,緊隨其后,今天 Google 的 Veo 3.1 也迎來了一次重大升級。

具體來看,Google 這次的升級包括兩個層面。

一是功能層面的完善。視頻編輯功能得到了強化,用户現在可以對片段進行更細緻的調整,對最終畫面有了更精準的掌控。

更重要的是,Google 首次給「素材轉視頻(Ingredients to Video)」「幀轉視頻(Frames to Video)」和「延展(Extend)」這些功能配上了音頻,讓音頻成為創作流程的一部分。

二是模型層面的進步。

今天發佈的 Veo 3.1 在提示詞理解和視聽質量兩個關鍵指標上都有了明顯提升,從圖像到視頻的轉化因此更加自然流暢。

衆所周知,Veo 3 原本就有不少編輯能力在身——通過參考圖像指導角色生成、用首尾兩幀填充中間內容、基於視頻末尾繼續延展等操作都可以做。

Veo 3.1 的做法是在這些既有功能上全部加入音頻支持,讓用户能夠打造更加完整的場景。這些功能目前還處於實驗階段,Google 表示會根據用户反饋繼續優化迭代。

現在用户可以這樣使用這些功能:

1、用多張參考圖像定義角色、物體和風格,「素材轉視頻」功能就會根據這些素材生成最終場景。

2、或者提供起始和結束畫面,讓「幀轉視頻」功能在中間生成無縫過渡,這對需要藝術性轉場的項目特別有用。

3、如果要生成更長的視頻,「延展」功能可以生成超過一分鍾的內容,基於前一段繼續生成,保持故事的連貫性。

值得一提的是,Veo 3 的文本轉視頻此前只支持 720p 橫屏輸出,但隨着豎屏視頻成為互聯網內容的主流格式,Veo 3.1 現在也可同時生成橫屏和豎屏的 16:9 視頻,更符合當前的內容消費習慣。

創意的打磨往往需要反覆迭代。

自 Flow 於今年 5 月推出以來,用户已經在該應用中創作了超過 2.75 億個視頻。吸取用户的反饋之后,Flow 中新增的兩個編輯功能就是為此而生——

「插入新元素」讓用户可以隨時添加內容,Flow 會自動處理陰影和光線,使新增部分自然融入原有畫面;

「移除對象」功能(即將上線)則可以刪除不需要的元素,Flow 自動重建背景保持一致性。這兩個工具的組合能夠讓視頻的編輯過程變得更加靈活。

目前 Veo 3.1 模型已經上線,開發者可以通過 Gemini API 使用,企業用户可在 Vertex AI 中訪問,普通用户也可以在 Gemini 應用內體驗。新功能也同步在 Gemini API 和 Vertex AI 中開放。

我們體驗生成了 3 個 Veo 最實用的應用場景。

前些時間爆火的第一視角穿越、ASMR 切水果,金屬、兔子蹦牀的夜視監控等視頻,都是使用 Veo 3 生成的。

▲由 Veo 3 生成,提示詞:50mm camera, close-up angle of a lemon made out of yellow-tinted glass being sliced horizontally on a wooden cutting board. The inside of the fruit is glass as well with a little bit of melting glitter. The entire scene is soft lit from the above.

比如這個生成玻璃檸檬的例子。提示詞要求「用黃色玻璃製成的檸檬被水平切開,內部也是玻璃材質,里面有融化的閃粉,頂部柔和照亮」。

Veo 3 的輸出是可用的,但 Veo 3.1 對「融化閃粉」的細節刻畫更精準。

電商場景下,我們直接讓他生成一段產品的廣告。要知道,一般的 TVC(電視商業廣告)也就是在 15s/30s 的時間左右來傳遞品牌信息。

▲由 Sora 2 生成,提示詞:根據以下商品信息,生成一段電商廣告視頻,包含實拍感的產品展示、3D旋轉細節、使用場景對比,以及配套字幕。智能手錶 X2,續航7天,¥1299 智能手錶,50米防水,健康監測(心電、睡眠)

Sora 2 貼心地用中文語音解說了商品信息,體現了更好的理解。但 Veo 3.1 這邊只是簡單地配了音樂,不如 Sora 2 周到,但從畫面質量來看,Veo 3.1 的視覺呈現更高級、更有商業感。

▲由 Veo 3.1 生成 ▲由 Veo 3.1 生成

我們也試了動漫生成,這次 Veo 3.1 的表現就比較一般了。

▲由 Sora 2 生成,提示詞:以吉卜力工作室動畫風格,一個男孩和他的狗跑上一座長滿青草的風景秀麗的山丘,背景遠處可以看到一個村莊,天空中飄着美麗的雲朵

顯然 Veo 3.1 在這塊的訓練數據還不夠豐富,距離吉卜力工作室那種精緻的動畫風格還是有不少差距。莫名消失的狗,都是 AI 穿幫的典型特徵。

▲由 Veo 3.1 生成 ▲由 Veo 3.1 生成

X 網友 @aisearchio 分享的威爾·史密斯吃麪測試 Demo 整體質感往上抬了一個檔次,動作流暢度、光影細節都明顯改善,表情豐富但也沒有崩掉。

綜合來看,Veo 3.1 在照片級、商業級的內容生成上已經足夠可用,細節理解能力也有明顯進步。但在特定風格的精準還原上——比如動漫、插畫這類需要高度風格約束的領域,還是有相當的優化空間。

儘管如此,從 Veo 3 到 Veo 3.1,從 Sora 到 Sora 2,視頻生成模型的迭代速度已經超過了大多數人的想象。

伴隨着這類 AI 視頻生成工具會從專業工具逐漸演變為大眾應用,屆時,你的朋友圈、短視頻平臺、甚至新聞源中,每一條內容都有可能是 AI 生成的。

這也意味未來你看到的每一條內容,都需要多一步確認——這來自真實拍攝,還是 AI 生成。

作者:莫崇宇

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。