熱門資訊> 正文
2024-09-30 20:29
今年2月Sora問世后,放出了幾段文生視頻的片段,給全世界不小的震撼,僅需要一些提示詞描述或者靜態圖片,Sora就能生成超高畫質、堪比電影質感長達1分鍾的視頻內容。馬斯克更是直截了當地説:「GG human(人類認輸)。」
這直接讓國內AI視頻生成模型企業揭竿而起,掀起一場「沒有硝煙的戰鬥」。
時隔一個月,國內的AI微短劇便如雨后春筍接連而至,《中國神話》、《三星堆:未來啓示錄》、《山海奇鏡之劈波斬浪》、《美猴王》、《AI看典籍》等。讓觀眾感受到中國企業不輸Sora的視頻生成模型。
誰也不打算放棄這次機會,因為這場競賽不僅代表着企業科技軟實力水平,更是一次率先插旗的機會。據《生成式AI商業落地白皮書》顯示,當前有53%的中國企業已開始有組織地進行生成式AI佈局。大家都希望能技術入局分一杯羹,但真正實現商業轉化卻沒那麼容易。
5月開始國內企業相繼公佈自研的視頻生成模型,智譜AI的「清影」,愛詩科技發佈「PixVerse V2」,生數科技上線「Vidu」,快手的「可靈 」,抖音的「即夢AI」,「美圖奇想」大模型、貓眼娛樂「神筆馬良」……一時間,視頻生成模型領域好不熱鬧!
其實從是2023年大模型浪潮來襲,國內就有一批」先行者「企業率先入局視頻生成模型,智象未來、出門問問、商湯科技能,當時仍在探索階段,還有很多問題需要解決。雖然能做到文字生視頻,但只能完成簡單指令、畫質不清晰、視覺效果不真實、內容不連貫,無法精準控制輸出,大家還在不斷訓練升級中。
直到3月國內首部AI全流程微短劇《中國神話》在央視頻上線播出后,大家看到國內的技術完全不輸Sora,模型生成的分辨率、幀率和時長等水平不斷提升。隨后快手可靈推出《山海奇鏡之劈波斬浪》、抖音即夢打造《三星堆:未來啓示錄》,展示着國內技術已經足夠創作完整影視作品的能力。
圖片:《三星堆:未來啓示錄》截圖
如今輕體量的短劇,也成為視頻生成模型企業推出作品的首選方式,主要是看重,短劇的每集1-3分鍾時長、畫面沒有過高要求、視頻平臺上線門檻低、故事性要求不強的性質,這樣一來,視頻生成模型就能發揮更強的執行力,對視頻作品有較高的完成度,最終創作的AI微短劇也更符合年輕化觀眾的審美興趣。
更重要的是,經過不斷地更迭調整,相比初代的視頻生成模型技術,現在已經能夠在畫面中呈現出複雜的物理規律效果,各家平臺也具備各自的優勢。
5月上線的「即夢」是最為大眾所知的剪映旗下產品,由「剪映Dreamina」改名而來,同時上線了AI作圖和AI視頻生成功能讓一波科技愛好者爭相體驗。其中圖片生成視頻的全新的視頻創作方式讓測試者眼前一亮,直接顛覆此前視頻創作的形式。
而字節跳動其實從2023年開始佈局AI,並在年底11月成立了專注於 AI 創新業務的新部門Flow。可以説是國內市場上在視頻生成模型方面最有經驗的公司,其先后推出Boximator、即夢AI的經驗積累和技術迭代下,9月24日在火山引擎AI創新巡展上,字節跳動正式宣告進軍AI視頻生成領域,一舉發布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型。相當於手握4大視頻生成模型產品,新推出的模型的語義理解能力大大提升,已經能夠做到多個主體運動的複雜交互畫面,並且保證多鏡頭切換的內容一致性,這在世界範圍來説,都是很難做到的。
6月緊隨其后的快手「可靈」其技術路線與Sora相似,效果也是直接對標Sora。這也就意味着技術水平之高,經過4個月的測試升級,最新版的能夠比較好地呈現出運動畫面,還新增了「對口型」功能,能夠讓視頻里的人物唱歌説話時,口型運動更自然。
除了高水平的模型技術,快手則更注重模型技術在視頻作品方面的應用,9月9日快手啟動「可靈AI」導演共創計劃。宣佈與李少紅、賈樟柯、葉錦添、薛曉路、俞白眉、董潤年、張吃魚、王子川、王卯卯等 9 位知名導演,以可靈AI為創作工具,生成製作 9 部 AIGC 電影短片。
能看出快手不是在悶頭研發模型技術,更注重視頻生成大模型的實用性和觀眾的體驗感。畢竟無論模型發展多高水平,它都是「工具」,是輔助影視創作、提高創作效率、創新營銷素材和形式的工具。
最近貓眼娛樂推出的「神筆馬良」則讓行業更大為震撼,作為首個面向長劇本的AI生成工具,用户可以上傳劇本,一鍵智能分析、智能角色創作、智能分鏡創作、智能臺詞朗讀,實現劇本內容的視聽化呈現「讓劇本一鍵成片」。
也就是説,影視創作最繁瑣的劇本環節可能「一鍵解決」了,更重要的是為高質感、強內容、中邏輯的長劇服務,相當於在一定程度上拉高了影視創作的天花板。
據QuestMobile發佈的數據,2024年第一季度,生成式AI(AIGC)成為移動互聯網行業增速最快、收益最大的行業;今年6月,AIGC類APP的月活躍用户規模達6170萬,同比增長653.3%。另有頭豹研究院數據顯示,預計到2026年,中國AI視頻生成行業的市場規模將達到92.79億元。
視頻生成大模型領域似乎一夜爆火,利好消息滿天飛。
外部風險和國內市場的快速發展,吸引國內大廠和科技創業公司依據自身優勢,在AIGC技術上持續發力,推出了更具開放性、實用性的本土化視頻生成大模型。
據相關機構及媒體的不完全統計,當前國內的大模型數量超300個,其中僅有140個左右完成了生成式人工智能服務備案。今年1-7月,僅35家大模型產業相關企業拿到了億元級的融資,大部分企業仍然處在融資早期,甚至尚未過審。
AI視頻的未來聽起來很美好,但這個領域目前並沒有出現一個出圈的爆款應用。無論是AI視頻產品還是由AI生成的視頻作品,都像是少數影視專業人士的玩具,侷限在小圈子範圍內,始終未能像ChatGPT一樣在大眾層面獲得認可。
據生數科技CEO唐家渝表示,在技術路線上,AI視頻行業目前處於底層架構收斂的狀態,可以理解為同質化,但並不意味着大家進展都一樣。例如現在的大語言模型都會使用 Transformer架構,但OpenAI是明顯領先的。
不過,雖然底層架構統一,但各個公司會有一些差異性。例如,如何有效壓縮視頻,如何在保證質量的情況下快速生成視頻,會涉及非常多算法技巧、算法難點,這是導致差異性的主要原因。
目前的視頻生成模型最大的侷限性在於可控性不足。比如生成一段畫面,畫面里的人物或者對象容易崩壞,生成的結果也有很大的隨機性,需要不斷地嘗試,這背后的本質是目前視頻生成技術的穩定性還不夠。
從實際落地的層面上看,無論是廣告、短劇,對畫面連續性、一致性的要求是很高的。即便是C端用户單純去玩,也希望能一次性就生成他們想要的畫面,這都對視頻生成模型的穩定性提出要求。
據悉,國內主要的視頻生成大模型產品已經能夠達到1080p甚至4K的高清分辨率,單個鏡頭的視頻時長在2-15秒左右,符合影視化的鏡頭時長需求,但分鍾級的長鏡頭在實現上還存在難度。提示詞方面,目前,圖生視頻、文生視頻、視頻生視頻均處在迭代階段,視頻生成趨勢正在由檢索生成、局部生成、走向依靠自然語言提示詞的全量生成,創作門檻更低、生成內容更加靈活豐富。
儘管產品並不完美,但無論是企業還是資本市場對視頻生成大模型的未來發展都抱有較高的期待。啟明創投主管合夥人周志峰在2024世界人工智能大會上將「3年內AI視頻生成技術將全面爆發」作為2024生成式AI的十大展望之一。"
互聯網大廠目前已經成為行業引領者,字節、快手高度重視視頻生成項目。字節將剪映定位為P0 級項目,由原CEO 張楠帶隊;快手則將「可靈」定位於戰略級項目,由技術大牛萬鵬飛帶隊,集全公司數據、算力和資金資源。
而之所以視頻生成能夠成為下一個有明確落地應用場景的行業,核心在於「視頻」已經成為互聯網時代下,C端用户的最大內容消費形式。據量子位研究,在移動互聯網的用户使用時長佔比中,短視頻佔比達28%,移動視頻行業用户規模達10.76億,月人均時長超64小時。
視頻生成大模型的用户分類分為B端和C端兩類,其中B端主要來自與視頻內容相關的領域,比如廣告、遊戲、短劇和影視等。C端用户一般是獨立編劇、視頻博主等,作為內容生產工具,視頻大模型可以極大程度的豐富各社交平臺、視頻平臺的內容創作。
對B端從業者的滲透,則是視頻生成大模型從「玩具」向「生產力工具」升級的關鍵,更重要的是,無論C端用户還是B端用户,人數規模的增長將會帶動大模型平臺的數據飛輪運轉,進一步推動大模型的技術升級和理解能力。
而AI商業模式也主要有兩種。一種是SaaS(軟件即服務)訂閲模式,用户打開軟件可以直接體驗到產品功能。一般這類軟件都會提供免費試用次數,如果用户有更多的需求或想使用更高級的能力,就需要支付訂閲費用。
另一種是API(應用程序編程接口)形式,將模型能力輸出形式提供給用户,即MaaS(模型即服務)。例如很多編劇公司、自媒體公司都需要具備文生視頻的能力,豐富產品形態,增加競爭力。
目前AI視頻生成大模型在影視、廣告、電商、自媒體等領域已經有了廣泛的應用,甚至取代一部分特效、動畫、廣告短片、商品動態展示等創作場景。
智譜AI CEO張鵬在接受媒體採訪時表示:「現在(視頻生成大模型)的商業化仍處於非常早期的階段,而且成本實際上也非常高,后面會根據市場的反饋做逐步迭代。」
AI視頻不會一直都是小眾產品。就像拍照一樣,一開始只是攝影愛好者或攝影師羣體使用,但如今,拍視頻、拍照已經成為每個人的習慣。相信未來,視頻創作者和消費者界限將逐漸模糊,藉助AIGC工具,會有越來越多消費者變成創作者,視頻創作的效果和ROI大幅度提升。
本文來自微信公眾號「TopMarketing」(ID:TMarketing),作者:劇風仔,36氪經授權發佈。