熱門資訊> 正文
2023-10-31 17:22
炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
(報告出品方/作者:方正證券,楊曉峰、楊昊)
一、文生2D覆盤:「千萬級數據和億級數據」是關鍵
2D模型數據量變大,涌現能力出現
涌現能力的定義:在小模型中沒有表現出來,但是在大模型中變現出來的能力。涌現能力大概可以分為兩種: 通過提示就可以激發的涌現能力和使用經過特殊設計的prompt激發出的新的能力。無論哪種涌現能力,當模 型規模超過一個臨界值時,效果會馬上提升。 以LeNet和AE為例,涌現能力在CV計算機視覺任務中也有所體現。 LeNet是由Yann Lecun(2018年圖靈獎得主 創造,其在手寫體字符識別領域創造性引入卷積神經網絡,是CNN的發展起點,通過觀察LeNet在MNIST 21上 訓練的結果,隨着模型參數的增加,測試精度顯示出不可預測的大幅增長;而在CIFAR100圖像數據集上訓練 的自編碼器(AE)隨着模型參數的增加顯示陡峭的均方重建誤差變化。
擴散模型領先於GAN、自迴歸模型
擴散模型(diffusion models)成為2D生成模型中主流模型,逐漸領先於GAN、自迴歸模型,顯著提高了 圖像生成的穩定性、準確性和多樣性。並且擴散模型在諸多應用領域都有出色的表現,如計算機視覺,NLP、 波形信號處理、多模態建模、分子圖建模、時間序列建模、對抗性淨化等。
ImageNet:首個千萬級別2D數據集,藉助眾包平臺完成
ImageNet數據集09年發佈,目前包含約1500萬張標註圖像。ImageNet數據集由斯坦福大學教授李飛飛牽頭從 2007年開始收集建立。2009年發佈時包含有320萬張圖像,是當時最大的2D圖像數據集。經過發展,ImageNet 數據集已擁有22000類約1500萬張標註圖像。 ImageNet來源於網絡圖像,藉助眾包平臺(Mechanical Turk)完成。數據集的大量圖像數據來自於日益增長 的網絡平臺,考慮到手動標註工作的大量人力需求,研究團隊藉助於Mechanical Turk(亞馬遜開發的眾包平 台)完成這項工作。
多個重量級算法誕生於ImageNet數據集
基於ImageNet的比賽ILSVRC每年舉辦一次,從2010年開始舉行,2017年后的比賽由Kaggle社區主持。比賽逐漸 成為全球大型賽事,2016年有172個作品參賽。短短7年內,分類領域的錯誤率就從0.28降到了0.03。 以擴散模型為基準,ILSVRC冠軍算法中AlexNet(12年)、GoogleNet(14年)、ResNet(15年)、SENet(17 年)等算法均超過擴散模型的影響力(以年均被引用量表示算法影響力)。比賽的歷年優勝者中,誕生了基於 ImageNet訓練的AlexNet、VGG(2014年定位比賽冠軍)、GoogleNet等經典的深度學習網絡模型。冠軍算法歷年 的測試錯誤率在6年間從15%下降到2%,極大地推動了計算機視覺領域的發展。
LAION:破億數據集出現,模型落地離不開億級數據
LAION(擁有全球成員的非營利組織)在2021年公佈的LAION-400M是當時最大的公開圖文數據集,22年10月發 布的LAION-5B是上一版本的14倍。網絡爬蟲帶來數億級別公有數據集。LAION的收集使用加州非營利組織 Common Crawl收集到的代碼來定位網絡上的圖片,並將它們與描述性文本關聯起來,對人工的依賴性很小。 上億數據集成為圖像訓練模型成熟應用的必要條件。LAION的數據集已經被用於文生圖的生成器,包括谷歌 Imagen和Stable Diffusion。同時,其他已落地圖像生成應用的國內外公司均是在上億級別的2D圖像數據集進 行模型訓練取得滿意效果。
二、3D研究框架:已破千萬級數據集,OpenUSD加速數據集擴張
3D發展研究框架
OpenUSD統一數據表現形式和文件格式,提供3D發展加速度。3D數據集數據記錄形式多樣,包含點雲、體素等, 以往模型往往針對不同形式有不同的算法;同時,3D數據文件格式多樣,跨文件轉化不易,也提高了數據集收 集門檻,限制了3D數據集的發展。而OpenUSD的推進有望解決以上問題,進一步解決數據集規模問題。 更大數據集和更好模型相互促進發展。基於更大3D數據集進行的訓練能夠得到更好的3D生成質量。生成結果經 過簡單處理可以大大減少人工建模時間和步驟,從而進一步擴大3D數據集,至此3D生成領域良性循環發展。
3D模型表示方式多樣,隱式表示越來越受重視
主要數據表示方式:隱式表示,其中INRs(隱式神經表示)被用於3D主流模型NeRF中,受到學界重視。3D數據 的世界沒有一致性,目前已有的3D數據集表示方法包括點雲、網絡、體素、多視角圖片等,不同的表示採用的訓 練路徑也大不相同。 隱式表示解決了顯式表示造成重疊、消耗內存等缺點,適用於大分辨率場景,INRs甚至可以生成照片級的虛擬 視角。NeRF模型首次利用隱式表示實現了照片級的視角合成效果,也將隱式表示推向新的高度。
通用格式解決模型互導問題,USD簡化3D文件訪問
3D文件格式多樣,適用領域不同,模型互導問題通過通用文件格式解決。3D創建需要各種工具和平臺的搭配利 用,其他應用程序無法編輯甚至讀取,帶來了模型互導的問題,導致3D文件格式眾多,種類有數十種。多軟件 之間對同一模型進行編輯操作時先將模型文件另存為通用格式,再導入到其它軟件。 USD作為一種通用軟件,支持移動端等途徑的便攜訪問和讀寫。許多傳統3D模型為本地客户端設計,需要極高 的硬件配置才能正常瀏覽,存儲佔用較大且文件打開速度慢。而對於.usd/.usdz文件格式,用户可像瀏覽普通 照片或者文本一樣在桌面端、Web端、移動端、AR/VR等終端正常瀏覽。
USD統一3D表示標準,OpenUSD聯盟降低USD使用門檻
USD承擔互聯網3D時代的HTML角色。23年8月8日SIGGRAPH大會上,NVIDIA創始人黃仁勛表示:「正如 HTML點 燃了2D互聯網的重大計算革命,OpenUSD也將開啟協作式3D和工業數字化的時代。」 AOUSD不斷降低USD文件學習和使用門檻,推動USD成為3D標準。USD是由皮克斯公司(Pixar)開發的開源格式, 可以在不同的工具間進行內容創作和交換,但學習曲線陡。針對這一問題,致力於推動USD文件格式發展的 OpenUSD聯盟(AOUSD,由皮克斯、Adobe、蘋果、Autodesk和英偉達與Linux基金會下屬組成)開展了一系列 有效舉措,如NVIDIA Omniverse™ 平臺,來降低用户的使用阻力。
首個千萬級數據集出現,3D發展來到2D的「2020-2021年」
2023年7月11日發佈的Objaverse-XL數據集包含1020萬3D資產,對比於Objaverse1.0版本增加一個量級。 bjaverse-XL通過對互聯網上3D對象的類源進行爬蟲獲取,實例涵蓋生活、虛擬多樣化場景,最終獲得了1020 萬已渲染的高質量3D文件數據。 類比於2D生成發展路徑,3D生成出現了具有統治地位的NeRF模型和千萬級數據集Objaverse-XL,3D發展來到 2D的「2020-2021年」。可以預見當未來數據集成長到億級,3D生成也將迎來爆發。
數據集越大,新視角圖片更優,3D生成效果更好
對已有算法PixelNeRF(NeRF的一種改進方法)和Zero123(一種文生圖模型)進行訓練,發現通過基於更多 數據進行訓練,3D質量有顯著的改進。 PixelNeRF隨着數據集量級變大,圖像質量評估指標PSNR(Peak Signal-to-Noise Ratio,峰值信噪比,數值 越大表明失真越少)變大,表明新生成的視角圖像質量越好,有利於提高后續三維重建質量;對使用 Objaverse-XL(1000萬量級數據)、Objaverse(800萬量級數據)訓練得到的Zero123-XL和Zero123比較,發 現生成的3D資產側面、背面的完成度有顯著的提升。
3D資產建模流程長,免費實例不足
原有3D建模流程長,具有資產屬性。3D資產在遊戲、動畫公司等均屬於資產,目前大多數實例由Blender和 Maya3D等建模軟件手工設計,人工建模涉及環節多,主要流程有:尋找實例-粗略佈局-細節説明-紋理-渲染檢查,且建模過程需要大量時間和專業知識。 3D資產昂貴,免費實例不足。公開的免費實例較少,成為阻礙3D數據集擴展的主要原因。在號稱世界上最大 的3D內容庫平臺Sketchfab上,3D模型每個價格從$3-$500不等。
3D生成質量變好,模型產物補充3D數據集內容
3D模型訓練效果依賴於3D數據集,但目前的數據集量級無法激發出模型的涌現能力,對生成的AI+3D資產進 行人工進一步優化所需要的時間和人力成本依然巨大。 目前數據集仍然是3D生成領域發展的重中之重。更大規模的數據集一旦能夠出現,AI+3D模型的質量會隨之變 好,因此,模型生成的3D資產在經過簡單的加工之后即可補充到3D數據集中,良性循環由此開啟。
三、文生3D的方向-擴散模型+NeRF
3D生成產業方向-文生3D是最終需求
目前存在4類3D生成路徑,實現難度從易到難。文生3D是終極需求,將3D資產從「專業的」變成「大眾的」 。 在生成質量、速度、落地程度方面,掃描得3D、視頻生3D已經較為成熟,但主要受限於機器的可達性差,沒 能獲得廣泛關注;圖生3D在特定場景下正逐步落地。相比於前三種方法,文生3D可以直接生成文字描述的場 景,甚至現實中不存在的事物,對於沒有專業知識的普通人更加友好,且不需要提前準備掃描儀等額外設備。
掃描得3D:成熟落地,手機即可實現
3D掃描技術結合數字三維重建等技術手段,利用三維掃描設備,可以對自然或人工合成物體進行建模,重建 真實物體的三維模型,目前已廣泛運用於建築保護、CT掃描、AR/VR等領域。 隨着時間的發展,掃描儀的可得性、便攜性逐漸增強。2015年安德魯·塔隆團隊就為巴黎聖母院大教堂完成 精度5mm的激光掃描和三維建模,越來越多的掃描工作讓古物永久保存。2020年iPad Pro出現用於3D掃描和增 強現實的深度傳感器(LIDAR),配合應用程序3D Scanner Pro可以進行3D掃描。iOS 12的Quicklook功能更是 可以用USDZ格式將3D模型分享給其他人。蘋果RealityScan依靠手機的攝像頭就可以實現掃描建模,iOS端和安 卓版本均已發佈。
視頻生3D:成熟落地,具備動態實時建模能力
視頻生成3D的技術已有落地產品,對於設備的要求越來越低,目前已經可以做到動態實時建模。無需激光 雷達或捕捉設備,現在只需要一部手機或者一段視頻,即可進行三維場景重建。 22年開放網頁版的Luma應用,以NeRF為核心,僅僅通過iPhone即可通過 AI創建3D;2022年10月,Connect大 會上,扎克伯格技術演示中展示了Codec Avatars 2.0的最新進展,Instant Codec Avatars只需用智能手機 從不同角度掃描人臉再進行各種表情的掃描,數小時可生成精細的虛擬化身;CYAN.AI平臺以CNN(卷積神經 網絡)和DNN(深度神經網絡)為核心,從2D視頻中提取人體運動的關鍵特徵進行身體姿勢識別,生成的3D 成果還可以與Unity集成。
圖生3D:距離真正商用還有一定距離
相比於掃描,圖生3D只需要數十張甚至數張真實場景圖片即可完成建模。從目前階段來看,圖生3D模型的 發展還處於實驗室階段,距離真正商用還有一定的距離。3D生成技術中的NeRF模型的本質就是圖生3D。輸 入是一組二維圖像和相應的攝像機參數(包括相機位置和方向),輸出是表示三維場景中每個點的顏色和密 度的函數。 科技公司在不斷嘗試研發對應的工具。已有的應用公司包括付費應用Kaedim,用户最少僅需上傳一張照片, Kaedim3D即可識別出圖中物體的3D形態,並用可導入幾乎所有主流軟件的格式輸出給用户;另外,免費3D模 型生成工具PIFuHD可以配合其他2D圖像生成軟件生成3D模型,但模型並不能直接導入虛幻引擎或者研發引擎 當作遊戲角色或者NPC。
文生3D:學界以科技巨頭緊密發力領域
應用端能夠支持文生3D的平臺很少(如3dfy.ai、Tafi、Masterpiece Studio平臺),具有時間長,複雜模 型精度低等問題,仍未達到運用於產業生產環節的標準。 2023年6月,Tafi發佈文生3D引擎,受限於數據集,其生成內容主要是3D人型角色。領先的3D內容和軟件提供 商Tafi利用專業美術師支持的原創角色平臺「Genesis」龐大的3D數據集,宣佈可以從文本創建3D角色,可生 成數十億個3D角色變體。生成的結果可導出到各種 DCC 工具,將高質量角色輸出到流行的遊戲引擎和 3D 軟 件應用程序,例如 Unreal、Unity、Blender、Maya、Maxon Cinema 4D等,但受限於訓練數據來自3D角色資 產,Tafi的生成內容主要集中於人型角色。
四、文生3D成本測算:迭代次數萬級以上
2D生成需迭代約20-50次
以2D為例,迭代次數越多,生成質量越高,對象越複雜。一般情況下,2D場景迭代20-50次左右即可實現要 求。根據我們實機測試,利用RTX 3090顯卡,在Stable Diffusion中,同一指令來生成的3組2D圖片發現: 2D模型的迭代速度約為每秒2.1次-4.1次迭代,且速度邊際提升。
3D資產算力-生成時間約3-4小時/個
採用3D模型Zero123,單場景3D資產生成需要迭代30000次左右,在RTX 3090顯卡(24GB)上運行約3.3-4.2小時。 根據我們實機測試的結果,在Zero123算法下,設定迭代30000次時生成的3D成品相對可行。文生圖模型的過程首 先經過文生圖片過程(時間幾乎可以不計),再通過生成的新視角圖片利用NeRF模型生成3D資產。利用3090顯卡 (24GB)且顯存使用率約50%(即12GB左右)時運行文生3D模型,對處理過的單場景圖片,根據測算,每秒迭代次 數約2.35次。總優化時間(小時)=迭代次數/每秒迭代次數/60seconds/60minutes。對於需要迭代30000次的單場 景來説,生成一個3D模型需要3.3-4.2小時。
3D資產算力-生成成本約5元/個
使用RTX 3090顯卡在Zero123模型下迭代30000次,生成一個3D資產的算力成本約5元左右。若在RTX 3090上運行 文生圖3D模型Zero123,按照RTX 3090顯卡每小時1.39元租金計算,若每秒迭代2.25次,需要迭代30000次,則3D 資產算力成本=5.15元(30000次/2.25次/s/60min/60sec*1.39元/hour)。未來隨着模型的發展成熟,假設迭代 速度變快到當前常規水平的2倍,在3090顯卡生成一個3D資產算力花費約2.6元左右。 文生3D資產算力成本遠遠低於市場3D資產購買價格,具有價格優勢。在3D模型的在線內容庫sketchfab上,即使 簡單難度的3D資產所需要的時間在2-15小時左右,購買費用在3-40美元區間,遠遠大於AI+3D生成成本。
報告節選:
(本文僅供參考,不代表我們的任何投資建議。如需使用相關信息,請參閱報告原文。)