熱門資訊> 正文
2023-08-16 09:16
摘要:
1.從2017年至今,3D經歷了3D視覺、元宇宙還有當前的大模型+MR驅動的三波熱潮,軟件(AI)和硬件(Vision Pro)共振帶來的新一波熱潮有望帶來更持續的3D創新;
2.文字和圖像的大模型都已經有了各自的基石模型並進入到應用爆發期,3D生成模型仍處在模型迭代階段,尚無行業*,但創新速度明顯加快,市場在等待屬於3D的「Midjourney時刻」;
3.現有3D管線研發成本高、製作周期長,AI+3D正在通過以下幾種方式大幅優化3D生產管線:生成式3D建模、紋理生成及綁定、服裝布料生成及驅動、Text to action動畫驅動、基於大模型的新交互方式(LUI、拖拉拽式交互)、3D資產庫+LLM,其中生成式3D*有變革性;
4.現有3D生成模型可以劃分成「原生3D」和「2D升維」路線,目前都面臨着生成速度、質量、豐富性的「不可能三角」:「原生3D」通常在生成速度和質量上佔優,但由於3D數據的匱乏導致生成的豐富性上仍是短板,「2D升維」則繼承2D圖像生成的豐富性,同時在生成速度和質量上快速追趕;
5.「3D原生」的生成式模型更接近商業化要求,會在特定場景下先行商業化,「2D升維」的生成式模型預期未來一年內有機會在元宇宙等對生成質量要求不高的場景落地,真正的3D應用市場爆發尚待XR的成熟滲透,我們認為五年后(2028年)AI+3D TAM市場的下限是3D資產交易市場的27億美元,樂觀看可達到數百億美元的市場規模(單遊戲的3D研發投入就超過百億美元);
6.當前階段有底層技術能力的公司會有顯著的競爭優勢,而3D應用的爆發仍需至少一年以上的時間,屆時競爭要素纔會逐漸往產品端傾斜,優秀的AIGC公司應當是擁有底層技術的同時有自己的爆款C端應用。
目錄
引子:三看3D,我們到底在期待什麼?
一、AI+3D=?
二、生成式3D的加速狂奔與「不可能三角」
三、生成式3D的商業化路徑和市場潛力
四、誰能成為3D的「Midjourney」?
引子:三看3D,我們在期待什麼?
最近借AI的光,3D又再一次受到熱烈關注。
*次記憶中的「3D熱」始於2017年,iPhone發佈了帶3D結構光的iPhone X,三年后又發佈了基於3D dTOF的Lidar。那是少數蘋果沒有帶起來的「時髦」新技術,最終友商們發現,增加了數十美金的BOM成本並沒有太大的體驗提升,智能手機上迟迟沒有等來3D的Killer app(爆款應用),*次「3D熱」隨即進入冷靜期。
第二次3D熱潮是在2021年,Roblox「元宇宙」*股、Quest銷量突破千萬「奇點」、Meta加入萬億俱樂部,XR被認為是繼智能手機后3D最有可能爆發的應用場景,然而VR始終沒能突破「遊戲主機」的敍事,而經濟環境下行的環境下,一臺399美元的笨重的遊戲主機始終無法進入大眾消費市場,22年VR出貨量跌破千萬、Meta股價打到骨折,3D再次無人問津。
而今年開始的這波「3D熱」主要是受LLM和Text to image為代表的大模型驅動,疊加6月WWDC中千呼萬喚始出來的蘋果的Vision pro,3D產業在軟件和硬件層面又開始出現了一些新的變化。
一直以來制約3D發展的主要在供給端,其瓶頸主要有兩方面:1)可以適應3D體驗的優異的硬件終端;2)豐富且高質量的3D內容。
之前兩次熱潮都由硬件引領,而這一次Vision pro又給硬件創新帶來了新的期待。此外這次大模型創新之於3D的主要變化在於內容創作門檻的降低。生成式3D、3D copilot等都在日新月異地迭代,因此由硬件和軟件創新所引領的新一輪3D熱潮或許將帶來更持續的生命力。
從目前多模態大模型發展階段來看,3D生成模型仍處於早期發展階段。目前文本和圖像大模型都已經有了各自開源或者閉源的基石模型,基於LLM模型市面上也已經誕生了Character AI、Inflection、Jasper等AI native獨角獸,LUI(基於LLM的用户交互)正在席捲和重塑軟件行業。而在圖片生成領域,除了Midjourney以外,也出現了基於Stable Diffusion等開源模型的Lensa、妙鴨相機等「輕」而爆火出圈的應用。那麼我們不禁想問,3D的「Midjourney時刻」何時到來呢?
一、AI+3D=?
1)現有的3D管線周期長、高度依賴人工
現有的3D資產生產管線大致包括概念設計、原畫製作、3D建模、紋理貼圖、動畫驅動、還有渲染。
其中3D相關的環節制作周期長、高度依賴人工,往往是研發投入的大頭。以*的遊戲市場為例,全球3D遊戲市場約佔全部遊戲的60%以上,而在3D遊戲中3D美術相關的支出通常會佔到研發成本的60%-70%以上,包括3D建模、紋理貼圖、驅動動畫等,一款*3D遊戲在3D研發上的投入可以高達數億美元,整個遊戲行業每年在3D相關的研發投入平均可達75億美元。
以3D遊戲中的人物建模為例,一個十萬面以上的3D高模資源,廠商如果要委託外包團隊生產該模型,則價格至少需要3萬元起步,時間為30-45天。如果是通過3D資產庫購買,除了面臨可選的資產有限之外,通常也需要花5-10人*天進行清洗纔可以使用。全球*3D內容公司Sketchfab顯示,3D模型生產周期在數小時到數天,生產成本平均高達千元以上。
除了3D模型資產以外,模型的動作、表情驅動也是非常耗時耗力的環節,特別在影視動畫、數字人領域,動畫驅動的投入佔比更高,這些環節都將有機會通過AI技術大幅提高生產效率。
2)基於生成式AI的3D管線可實現效率飛躍
生成式AI幾乎可以在所有3D管線的環節中發揮作用,提高生產效率、縮短製作周期。
目前在3D內容製作領域使用最廣泛的是文生圖在原畫製作環節的應用,很多遊戲工作室目前已經是美術人手一個Midjourney再加一些特定風格微調的Stable Diffusion,LLM能夠在概念設計環節幫助編劇提升一定效率,但目前更多還是擔任創意輔助的角色,相比之下,3D與大模型結合則仍處在非常早期的探索階段,但如果以5年維度來看,我們認為整個3D管線能夠實現70%以上的成本和時間優化,這意味着3-4倍的效率提升。
目前我們關注到的AI+3D主要包括以下幾種方式:
2.紋理生成及綁定:目前基於NeRF(Neural Radiance Fields,神經輻射場)的3D生成模型通常是一步到位生成帶貼圖的3D資產,而沒有單獨進行紋理的生成和綁定,而非NeRF路線的生成模型通常會對幾何和紋理進行分別生成,再進行綁定和驅動,比如英偉達的GET3D,上海科大的影眸科技提出的Dreamface,以及來自美國的Synthesis AI等。
3.Text to action動畫驅動:類似OpenAI在圖像領域提出的CLIP模型,通過大量的文本動作數據對進行預訓練,形成大模型對於動作表情的理解和生成能力,例如在虛擬人場景中,根據對話文本生成合適的肢體動作和表情。
在action方面,字節旗下的朝夕光年在今年3月的遊戲開發者大會(GDC)上介紹了將文本轉化成全身動畫的技術,該技術將應用在即將推出的遊戲《星球:重啟》;騰訊聯合復旦於今年6月在Arxiv上發佈了MotionGPT模型的研究;北京大學團隊在7月份提出GestureDiffuCLIP用於語音語義到手勢的生成;國內初創企業中科深智也基於多年文本動作對數據的積累推出了CLLAP模型等。
而表情驅動上比較有代表性的是英偉達的Audio2Face和多倫多大學的JALI模型,嘗試通過對輸入文本的理解,生成恰當的口型和表情,目前在嘴型匹配上有比較好的進展,但整體表情生成上仍有待突破。
4.服裝布料生成及驅動:服裝布料生成也是3D模型里比較重要的環節。在3D場景下,不同布料工藝的服裝如何生成、如何適配avatar體型、怎麼解算服裝的動畫都是服裝布料生成需要回答的問題。目前這塊的相關研究尚處在早期,我們看到有凌迪科技Style3D通過diffusion+圖形學仿真來實現生成和動畫驅動,也關注到米哈遊和倫敦大學等在2019年的Siggraph上聯合發佈了關於服裝動畫半自動生成的研究,而在米哈遊的虛擬人鹿鳴新近的直播中我們看到其服裝動畫的實時解算渲染已經達到了較高的水平。
5.基於大模型的新交互方式降低使用門檻
a.LUI:基於LLM,融入對話式的交互,實現類似微軟office copilot式的軟件交互,大幅降低3D建模軟件的使用門檻,比如Unity在6月發佈的Unity Muse。LUI已經在逐漸成為各類軟件的標配,3D軟件也不例外。
b.拖拉拽式交互:3D作為基於視覺的內容,很多時候通過Chat來進行微調不如通過拖拉拽更高效。5月份的DragGAN模型通過拖拉拽實現了將圖片中的大象P圖轉身而驚艷了整個行業。之后也有業內人士基於DragGAN和3D生成模型Get3D縫合出了Drag3D模型,可以通過拖拉拽的方式對3D資產的幾何形狀和紋理進行編輯。
6.3D資產庫+LLM:3D資產庫可以基於LLM進行3D資產的快速匹配、參數調整,從而在資產庫的範圍內實現「Text to 3D」。美國老牌的3D資產庫Tafi在6月份發佈了驚艷的Text to 3D引擎demo,可以幫助用户在極短時間內「生成」想要的3D資產,並可導入到Unity等引擎進行后續的編輯和商用。
https://jinqiucapital.feishu.cn/docx/Oe7Cd1FhVoQxA0xF81Gc3U5InS1#JAOXdtMloors6Uxq6GQcmwNontg(視頻鏈接)
Tafi的Text to 3D產品demo
二、生成式3D的加速狂奔與「不可能三角」
儘管大模型正在以多種不同的方式在改變着3D管線,但通過生成式3D模型實現3D資產的生成是本文的關注重點,包括3D建模和紋理貼圖。一方面是3D資產建模和貼圖研發投入佔比最高,而生成式3D有望帶來真正的生產力變革,另一方面是生成式3D是一個更加「3D native」的事情,相比之下LUI或者檢索匹配已經在2D圖像等領域快速滲透。
生成式3D建模可以從「遠古」的3D-GAN(2016)説起,而為最近一波3D生成的奠定基礎的是陸續出現的NeRF模型(2020)、diffusion模型(關鍵成果~2020年),以及2022年底誕生的Dreamfield、Dreamfusion、Get3D、Magic3D、Point-E等經典的3D生成模型。而進入2023年,隨着大模型進一步成為顯學,3D生成領域也開始進入新的快車道,半年多時間我們看到了在生成質量或者速度上表現令人驚艷的模型,包括Shap-E、DreamFace、ProlificDreamer、One-2-3-45等。
NeRF模型:NeRF(Neural Radiance Fields,神經輻射場)是一種計算機視覺技術,用於生成高質量的三維重建模型。 它利用深度學習技術從多個視角的圖像中提取出對象的幾何形狀和紋理信息,然后使用這些信息生成一個連續的三維輻射場,從而可以在任意角度和距離下呈現出高度逼真的三維模型。
Diffusion模型:在深度學習中,Diffusion模型是一種以Markov鏈和噪聲驅動的逆過程為基礎的生成模型。該模型通過模擬噪聲的慢慢消散過程,逐步形成想要的數據分佈,常用於生成高質量的圖像和其他數據類型。
從發展的技術路徑來説,生成式3D可以粗略劃分爲「原生3D」和「2D升維」,兩者的核心區別在於前者是直接文字到3D,后者是2D圖像再進一步通過擴散模型或者NeRF生成3D。兩種路徑的選擇對於模型的生成質量、速度和豐富性有決定性的影響。
1.原生3D派:原生3D 路線主要特點是使用3D數據集進行訓練,從訓練到推理都基於 3D 數據,通常也是基於diffusion模型和transformer模型的方法進行訓練,實現從文字/圖片輸入直接到3D資產的生成。
a.優勢:
i.生成速度快:2D升維通常利用 2D 擴散生成模型來指導 3D 表示(如 NeRF)的優化,需要很多步迭代導致非常耗時,而3D原生的生成通常可以在1min以內完成,類似2D的文生圖;
ii.生成質量高:在特定範圍內能夠生成質量較高的3D資產,比如通過高質量的3D人臉數據可以訓練出4k以上高質量的3D人臉,同時避免了2D升維的多面等問題;
iii.兼容性好:通常有幾何和紋理的分別生成,可以直接在標準圖形引擎中進行后續編輯。
b.劣勢:
i.豐富性不足:原生3D生成的問題在於缺乏高質量、大規模的3D數據集,目前比較大的3D數據集基本在百萬級別,相比於十億級別的圖像數據集有三個數量級的差距,並且數據質量和一致性較差,制約了模型的「想象力」,比如沒有見過的物品或者組合,對目前的原生3D模型往往比較挑戰。
c.典型模型:Get3D(Nvidia)、Shap-E(OpenAI)、Dreamface(影眸科技)
2.2D升維派:通過 2D 生成模型(如 Imagen、diffusion model)生成多個視角的 3D 視圖,然后用 NeRF 重建。背后核心邏輯是3D數據集的匱乏難以滿足豐富的3D生成需求,在2D的文生圖紅紅火火的背景下,越來越多的研究者試圖基於海量的2D圖像數據來實現3D的生成,並取得了飛速的進展。
a.優勢:可以利用大量的2D圖像數據進行預訓練,數據的豐富性使生成的3D模型複雜度提高,富有「想象力」;
b.劣勢:
i.生成速度慢:NeRF的訓練和推理過程都需要大量的計算資源。因為需要對3D空間進行密集的採樣,這也導致了生成速度較慢,不過最近的One-2-3-45模型提出了 「2D 多視角預測 + 3D 可泛化重建」將生成時間縮短到了45s,生成速度上在追趕3D原生派;
ii.生成質量:NeRF更擅長合成視角而非精確重建,受限於採樣數量、視角數量及計算資源的平衡,目前2D升維生成3D在分辨率、紋理細節都還比較粗糙,以及2D升維3D過程中的一些非理想效應的存在,導致整體的生成質量還有較大提升空間;
iii.兼容性問題:NeRF格式無法直接在Unity等3D引擎中進行后續的編輯,也可以通過Matching cubes等方法轉換成3D網格再到3D引擎中進行編輯,也有一些2D升維3D模型已經可以實現Mesh格式的導出,兼容現有3D管線,整體兼容性有所改善;
c.典型模型:Dreamfield、Dreamfusion(Google)、Point-E(OpenAI)、Magic3D(Nvidia)、ProlificDreamer(生數科技)、One-2–3–45
我們按照生成速度、生成質量以及豐富性來對典型的模型進行大致座標系排列,大概能得到如下的圖:
可以看到,目前的3D生成模型存在一個明顯的在生成質量、速度、豐富性之間的「不可能三角」:
·「3D原生派」基本上保證了質量和速度,但是在豐富性上由於3D數據的匱乏存在明顯的短板,后續的重點發展方向就是通過自主採集或者開源共享的方式,在更多的場景、類型上豐富3D數據,逐步提高豐富性;
·「2D升維派」繼承了2D圖像生成的豐富性,但在質量或者速度上存在一定短板。不過我們也看到,在第二個角上,既有ProlificDreamer這樣生成質量讓人亮眼的,也有One-2–3–45這樣在生成速度上追求*的模型出現,生成質量和速度都在不斷提升。
三、生成式3D的商業化路徑和市場潛力
當前的生成式3D存在的問題好比一年前的文生圖,V1、V2的Midjourney的生圖質量、可控性和可編輯性離商業化看似遙不可及,但短短一年多時間,設計師們就開始驚呼「失業」。筆者認為上述「不可能三角」的問題同樣有機會在未來一年內逐漸取得突破,並開始生成式3D的商業化之路。
從商業化路徑來説,「3D原生」的生成式模型由於生成速度和質量可以達到或接近商業化的要求,將會在特定場景下的先行商業化。
例如影眸科技的Dreamface已經可以在遊戲領域替代一部分前期建模的工作,Get3D正在一些元宇宙類場景里進行簡單物品生成的測試。隨着越來越多人加入「3D原生」生成的研究,預計將會出現越來越多大規模、高質量的3D資產數據集,以及通過模型架構的改進以降低對數據依賴,以此共同推動原生3D在更多場景逐步落地。
「2D升維」的生成式模型相比之下離商業化稍微遠一些,但得益於NeRF和diffusion的快速發展,能看到今年以來,「2D升維」的新學術成果相較「3D原生」的數量更多,在生成質量、生成速度上都有不同程度的顯著提升。可以預期,未來一年內,2D升維的3D生成有機會在一些對生成質量要求不苛刻的場景初步落地,比如元宇宙(UGC到AIGC的升級)、VR家裝等。
短期來看,3D生成的應用場景還是以遊戲、影視為主,但我們也留意到像虛擬人這樣的3D內容場景的增長;長遠來看(5-10年),隨着XR將成為下一代智能終端,3D的內容和交互將成為比圖片更為普遍的需求,而3D生成則會是一件和圖片生成至少一樣重要的事情。
圖:Vision Pro發佈時Character AI的官方P圖,MR時代3D內容會在C端進一步打開市場,每個ChatBot都可以是ChatAvatar進行更好的3D交互
我們嘗試以保守和樂觀兩種思路簡單測算生成式3D五年內的全球市場潛力:
1)測算邏輯一(保守):假設完全替代3D資產交易市場,對應22年3D資產交易市場~12億美元,28年預計27億美元
·生成相比於購買在成本、效率上都能有很好的提升,技術成熟的情況下基本可以做到完全的替代,一如文生圖對圖庫市場發起的進攻。假設五年時間做到技術成熟水平,可替代的3D資產交易市場規模~27億美元。
2)測算邏輯二(樂觀):參考遊戲3D資產的研發成本進行樂觀測算,到2028年可觸達的市場規模將超過百億美金。
遊戲是目前3D資產需求的大頭,以數據完整度較高的遊戲市場進行測算:
·通過公開數據和行業調研,我們大致假設:1)3D遊戲佔遊戲類型的60%;2)美術佔3D遊戲研發成本70%(3D遊戲美術成本通常比2D高);3)3D美術在3D遊戲美術費用中佔60%
可以得到遊戲在3D相關的研發投入當前大約在75億美金,到2028年將會超過100億美金,是AI+3D有機會觸及的市場。除了遊戲以外還有影視以及未來的XR都有大量的3D內容需求,綜合來看AI+3D有機會觸及的市場將達到數百億美元。
我們認為,Midjourney的出現不會干掉Photoshop,Photoshop也在拿起AI的武器進行升級迭代,同樣的,未來這100億美金里也少不了現有的Unity、Unreal、3ds Max等公司身影,但我們更期待3D領域的「Midjourney」出現。
四、誰能成為3D的「Midjourney」?
大模型的創新下,文字和圖片的生成都已經進入到應用蓬勃發展的階段,市場層面也出現了很多從收入和融資上都很優秀的公司,即便是尚未大規模商業化有PMF的視頻生成領域,也有Runway這樣受到市場高度認可的獨角獸企業。但反觀生成式3D,從商業化和市場認可角度,這樣的公司尚未出現。
1、3D的「Midjourney」公司應該具備的核心能力
筆者認為當前階段有底層技術能力的公司會有顯著的競爭優勢,而3D應用的爆發仍需至少一年以上的時間,屆時競爭要素纔會逐漸往產品端傾斜,優秀的AIGC公司應當是擁有底層技術的同時有自己的爆款C端應用:
·技術:當前仍處在3D生成的技術創新周期,技術上的創新能夠帶來產品上的極強競爭力。我們觀察到目前跑出來的或者得到資本市場認可的AIGC應用幾乎都是具備較強底層技術能力的團隊,包括ChatGPT(OpenAI)、Midjourney(自研模型)、Runway(stable diffusion共同作者)、character AI(Attention is All You Need 的核心作者)等,技術在3D生成的當前階段仍然是核心競爭要素,缺乏底層技術能力的公司有可能會在未來出現Jasper AI的窘境;
·產品能力:Midjourney在11人的情況下通過discord做到千萬級用户、過億美金年收入是被津津樂道的成功產品案例,Lensa、妙鴨也都是在並不複雜的技術基礎上通過成功的產品定義,而在短時間成為爆款。面對一個新的技術物種,怎麼去做好產品定義對於團隊來説也是重要考驗。
對於AIGC的創始團隊來説,通常在初期階段面臨着幾個重要的產品決策:1)如何設計User in the loop的數據反饋迴路;2)自研模型的公司是選擇閉源還是開源,產品型公司選擇什麼樣的大模型底座;3)做生產工具還是做內容平臺。讓人興奮的是過去半年多時間,我們已經看到越來越多在移動互聯網時代操刀過千萬甚至億級DAU產品的產品經理也開始加入AIGC浪潮,讓筆者對接下來的AIGC產品創新充滿了期待。
2、TO C or TO B 如何選擇?
最后一個繞不開的商業化問題是:對於3D生成的企業,2C or 2B?
目前來説 ,to C依然是AIGC最理想的商業模式,大家都希望像ChatGPT、Midjourney一樣,用自己的C端應用形成數據飛輪,再反哺底層模型進行快速迭代。但受限於硬件終端,C端消費者能夠直接消費3D的場景非常少。
短期來看,更容易實現的商業路徑是2B2C。通過遊戲、元宇宙等B端場景觸達C端,容易實現早期商業化,但往往數據迴路在這里就被切斷了,作為背后3D生成技術提供方比較難拿到用戶數據的反饋;或者自研C端泛遊戲類應用,比如「AIGC版roblox」、「3D版抖音」等,確保對用户、數據的掌控,但這同時對團隊的產品及運營能力提出了比較高的要求。
最后總結 一下,隨着XR的發展,會有越來越多的遊戲影視以外的3D native的應用可以被大眾直接消費,而生成式3D將會從大幅降低3D內容生產門檻的角度,一起助推3D成為The next big thing。
作為多年XR投資人和果粉,最后再放兩張圖帶大家一起憧憬一下不遠處的3D數字世界
參考資料:
《DreamFusion: Text-to-3D using 2D Diffusion》
《GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images》
《Magic3D: High-Resolution Text-to-3D Content Creation》
《Shap-E: Generating Conditional 3D Implicit Functions》
《Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold》
《Drag3D: DragGAN meets GET3D》
《MotionGPT: Human Motion as a Foreign Language》
《GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents》
《無需任何3D數據,直接文本生成高質量3D內容,清華朱軍團隊帶來重大進展》機器之心
《3D AI生成出新玩法了:無需數小時,只要45秒,單張圖片即可生成 3D模型》機器之心
《Learning an Intrinsic Garment Space for Interactive Authoring of Garment Animation》米哈遊等,服裝動畫解算
《遊族稱AI讓2D美術降本25%、明年發佈三體遊戲,上市公司密集談AI》GameLook
《次世代3D遊戲角色的製作流程》遊鯊遊戲
《一句話實現3D內容製作,Unity上線AI工具「Muse Chat」,美股飆升15%》機器之心
《驚艷!全球*文本生成高質量3D模型,效果媲美瑪雅、C4D!》AIGC開放社區
《Synthesis AI可通過文本提示創建逼真虛擬數字人》映維網
《關於 3D AIGC 的務實探討——從學術研究到商業落地》太極圖形
《生成式AI對於遊戲的研發變革以及產業要義》廣發證券
《蘋果Vision Pro開啟新時代,計算機從2D到3D,三維內容生態迎萬億藍海》36氪
《AI+遊戲會議紀要》騰訊手遊助手
《凌迪科技Style3D:讓AIGC走上秀場背后,是打造服裝產業模型的決心 》