熱門資訊> 正文
2022-11-16 11:30
本文來自格隆匯專欄:國泰君安證券研究,作者:陳筱、陳俊希
導讀
AI繪畫是AIGC的重要分支,跨模態生成是該項技術發展的關鍵節點。AI繪畫作品獲獎成導火線,商業化潛力尚待發掘,跨模態或更進一步,下一代互聯網望成AI繪畫關鍵着力點。
報告摘要
AI繪畫是AIGC的重要分支,跨模態生成是該項技術發展的關鍵節點。AIGC是基於生成對抗網絡GAN、大型預訓練模型等人工智能技術,通過已有數據尋找規律,並通過適當的泛化能力生成相關內容的技術,可以看做是繼PGC、UGC之后的內容產出方式,AI繪圖屬於AIGC技術場景中的分支。目前在該項技術上保持領先的主要是NVIDIA、Google等國外大廠,跨文字和圖像的多模態內容生成技術的實現成為AI繪畫關鍵的發展節點。
AI繪畫作品獲獎成導火線,Diffusion模型為當前主流。AI繪畫作品《太空歌劇院》在美國一場人類藝術比賽中獲第一名成為近期AI繪畫受到高度關注的導火線,通過《Midjourney》軟件生成的繪畫作品絲毫不輸藝術家的創作成果。而基於Diffusion模型設計的《Disco Diffusion》、《Stable Diffusion》、《DALL·E2》等多款AI繪圖應用成為目前主流產品。同時《Dream by Wombo》等手機App的上架使得AI繪畫從專業度較高的產品向大眾化應用轉變。
商業化潛力尚待發掘,有望參與10%-30%的圖像內容生成工作。當前AI繪畫的用户付費意願不強,60%的用户從未在AI繪畫相關方面付費,在C端付費形式刺激度較低的情況下,未來B端或將成為AI繪畫軟件的核心客户。但同時,AI繪畫也面臨版權問題,絕大多數原創作品的版權擁有者會介意AI提取自身作品的部分元素。從市場規模來看,未來五年或將有10%-30%的圖片內容由AI參與生成,相應或將有600億以上的市場規模。
跨模態或更進一步,下一代互聯網望成AI繪畫關鍵着力點。以VR設備等新型硬件為入口的下一代互聯網,2D向3D的轉換對於內容量的需求或成指數級上升,這其中AI將成為重要輔助。目前,GAN模型和NeRF模型均已能實現單張2D圖像向3D模型的生成,並且動態、場景、光影效果等3D圖像所需的要素均已有了明顯進步。在此基礎上,文字向2D圖像生成,進而向3D模型的生成或有望實現,該項技術不僅在遊戲等行業能得到有效應用,對於下一代互聯網各種元素的構建亦有關鍵意義。因此,AI繪畫或不是結果,而只是AI進程中的一塊重要拼圖,有望在技術更新的加持下實現更大的應用價值。
風險提示:AI繪畫相關技術發展不及預期,商業化拓展低於預期。
正文部分
1.1. AIGC重要分支,有望率先落地
AIGC全稱AI-Generated Content,是基於生成對抗網絡GAN、大型預訓練模型等人工智能技術,通過已有數據尋找規律,並通過適當的泛化能力生成相關內容的技術,AI繪圖屬於AIGC技術場景中的分支。目前,AIGC正在完成從簡單的降本增效向創造額外價值升級,跨文字和圖像的多模態內容成為關鍵的發展節點。並且,AIGC已經成為PGC和UGC之后新內容創作模式,具備較大的商業前景。
從AIGC的參與者來看,目前國外大廠及細分賽道龍頭公司已位居世界前列,國內部分公司也在奮起直追。例如NVIDIA、Google、Amazon等公司通過自研或收購的方式已走在技術前沿,圖像、視頻等細分領域也有諸多小龍頭誕生。國內佈局最多的賽道是AI寫作和語音合成,圖像、視頻等領域的初創公司不斷增加。未來隨着國內AIGC技術不斷成熟,大公司收購可能為成為主流現象,將部分初創公司的先進技術結合進已然成熟的內容體系中,從而生成可供直接應用的消費形式,進而在多種場景中實現應用。
由於家庭娛樂習慣差異,歐美用户較我國大陸用户而言更偏好主機。根據觀研數據,2021年全球主機用户數達4.1億人,其中歐洲、北美、我國大陸分別為2億、1.6億、821萬人;全球主機(含軟硬件)市場規模達2867億元,其中歐洲、北美、我國大陸分別為949億、1301億、26億元。我國大陸市場與歐美市場差異懸殊主要系主機滲透率有限所致,國內市場手遊迅速流行,主機遊戲未能有效觸達用户。
1.2. 模態生成為主流,文字到圖像基本成熟
AI繪畫初代實現形式為GAN(Generative Adversarial Nets,生成式對抗網絡),最初是圖像到圖像的生成過程。GAN模型由生成器和判別器兩部分組成,生成器將抓取數據、產生新的生成數據,並將其混入原始數據中送交判別器區分。這一過程將反覆進行,直到判別器無法以超過50%的準確度分辨出真實樣本。以NVlabs的SPADE為例,用户提供草圖,由GAN將其轉化為真實的風景圖像。但在這類模型里,用户無法通過文本影響生成結果。
升級后的模型加入CLIP的「指導」,可以實現跨模態的圖文生成,使用户能以文字輔助AI作畫。例如VQGAN+CLIP或StyleCILP,均是因為CLIP打通文本和圖形域,使用户輸入的文本和GAN生成的結果有了可比性,從而通過計算二者的誤差來達到用户真正想要的結果。
憑藉更豐富的內容形式、更低的售價、更強的便攜性,VR設備銷量有望突破主機4000萬台的天花板。與主機相比,VR不再侷限於遊戲,而是基於沉浸式特徵向視頻、直播、健身、社交等更多內容形式延伸,豐富度顯著提升。硬件方面,VR一體機2000-3000元的售價顯著低於傳統家用主機3500-4000元的售價,並且無需電源供電、無需連接顯示器,突破了家用主機的場景限制。從主機三大品牌間的橫向比較來看,售價更低、更輕便、使用場景更多的Switch也更受歡迎,2021年Switch 2080萬台的出貨量遠高於PS的1370萬台、Xbox的800萬台,可見大眾對於定價低且便攜的硬件接受度更高。因此我們認為,VR設備有望憑藉更豐富的內容、更低的售價、更強的便攜性覆蓋更廣泛的用户羣體,其年度銷量有望突破主機4000萬台的天花板。
但GAN也有諸如訓練不穩定、生成樣本大量重複相似、圖像壓縮等問題需要解決。這也使得擴散模型Diffusion model快速崛起,甚至有望超過GAN。Diffusion其實是早於GAN被提出的,但因為Diffusion依賴大模型實現,所以對大部分用户的進入門檻較高,研究者也不多。直到2021年,因為Disco Diffusion、DALL·E2、Imagen AI等,Diffusion 纔開始被更多人瞭解。
Diffusion最初受到熱力學概念的啓發,擴散模型通過增加噪聲破壞訓練數據來學習,然后找出如何逆轉這種噪聲過程以恢復原始圖像。一旦經過訓練,擴散模型就可以應用這些去噪方法從隨機輸入中合成新穎的「乾淨」數據。相比GAN,Diffusion模型在所需數據更少的情況下,圖像生成效果有明顯提升。
Diffusion 模型的代表是Disco Diffusion,最初是搭載在Google Colab上,特點是擅長抽象畫面,但在具象生成和較多的描述語句上效果較差。后續出現的DALL·E2和Imagen AI對文本指令的還原度更高,但前者技術上是CLIP模型和Diffusion模型的結合,后者是由純語言模型(T5-XXL)實現文字到圖像的轉換。
1.3. AI繪畫作品獲人類美術比賽第一名,大規模應用或在朝夕2022年PICO不斷強化營銷力度,全年出貨量有望同比增長超6倍至113萬台。
近期AI繪畫受到高度關注的導火線在於一副AI繪畫作品《太空歌劇院》在以人類繪畫作品為主的美國科羅拉多州博覽會的美術比賽獲得第一名,從而引起對AI繪畫的爭議。該作品通過Midjourney生成,獲獎者在AI繪圖的基礎上對作品進行調整。Midjourney上手難度很低,有較強的商業價值,近期《經濟學人》雜誌也用Midjourney生成的圖片做了封面。前期AI繪畫生成,后期通過PS調整,作畫效率將會大大提升。通過《太空歌劇院》獲獎這一事件,AI繪畫的大規模應用或已到黎明期。
目前,AI繪畫已不侷限於PC端,且對顯卡的要求也不再是創作的限制,在iOS和安卓系統均上線多款AI繪畫App。其中,iOS App Store最熱門的AI繪畫App為《Dream by Wombo》,截止2022年上半年,平臺用户已創作出一千萬以上的畫作,該App的安卓版本在上架一個月的時間內,下載量超過一百萬次。
《Dream by Wombo》操作頁面可視化程度高,上手難度低,且CLIP模型的隨機性能保證不會生成兩個相同的作品。用户在在平臺上輸入各種與風格、主題、氛圍有關的關鍵詞后,AI就會根據這些關鍵詞在互聯網上搜索有關的資源素材,並將其糅合與拼接成一些符合要求的畫作,同時還有多種藝術風格可以選擇。CLIP的加持使得同一關鍵詞會隨機生成不同圖像,這使得所有用户都能創作出獨一無二的作品。
2.1. AI繪畫黎明將至,商業化潛力仍待發掘
我國AI繪畫用户主要是集中在一二線城市中的年輕人,這類人羣更樂意嘗試新事物。根據6pen的調研,國內AI繪畫用户年輕化特點明顯,46%的用户為大學生和研究生,18%的用户為初中生和高中生。而在地域方面,北京佔8.7%,深圳佔7.8%,南方城市佔比較北方更高。
而在用户行業分佈方面,美術設計類和互聯網工作為核心,這與AI繪畫的商業應用關係密切。根據6pen的調研,AI繪畫的用户近半數為美術設計類和互聯網行業,AI繪畫能輔助設計類工作的進展,同時對遊戲等互聯網行業有所助益,這幾類行業將是AI繪畫模型的核心商業受眾。在使用的具體方式上,接近40%的用户依靠在線服務,早起AI繪畫模型對顯卡的高要求導致部分配置無法較好的運行AI繪畫系統,但隨着Stable Diffusion、Midjourney等新應用的上架,對電腦配置的要求將進一步降低。
在AI繪畫商業化方面,用户付費尚在摸索階段,B端付費的可能性更高,且通過AI繪畫並不能獲取較高的收入。根據6pen的調研,60%的用户從未在AI繪畫產品上有過付費行為,剩下40%的用户中,付費超過100元佔比僅10%。目前AI繪畫的盈利方式較為單一,多為生成圖像的次數付費或者縮短生成時間付費等,在未大規模應用AI繪畫之前,C端用户目的性較弱的前提下付費意願不強,但如若B端應用成熟,付費的可能性相對更高。此外,AI繪畫用户主要爲了娛樂目的,只有極少的用户能從中獲得收入。
最后,在AI繪畫的用户認知層面,已經有相當一部分用户認可AI繪畫對人類工作的助益,並且2022年更多用户開始接觸AI繪畫,或成為AI繪畫的元年。根據6pen的調研,雖然有42%的用户認為AI繪畫僅能滿足娛樂需求,但有50%以上的用户認為AI繪畫能替代一部分,甚至完全顛覆目前的工作方式。隨着多款低門檻的AI繪畫產品在2022年發佈,多數用户開始接觸AI繪畫,2022年有望成為AI繪畫元年。
2.2. 應用更新迭代,有望成為圖片內容生成重要輔助
具體到AI繪畫產品,Disco Diffusion、Stable Diffusion、Midjourney位列前三。Disco Diffusion作為成熟的AI繪畫應用,用户基礎較好。Stable Diffusion於2022年8月下旬發佈,技術門檻和儲備顯卡成本均進一步下探,且有更多的風格化,更簡易的訓練框架,迅速成為AI繪畫熱門應用。Midjourney依靠AI繪畫作品獲得人類美術比賽一等獎而名聲大噪。
從藝術家的角度來看,對AI繪畫總體持保守態度,版權問題或成為AI繪畫產品需要解決的關鍵。根據6pen對藝術家的問卷調研,7%的藝術家表示自己的作品風格已經被AI模型學習,更多的表示不能確定。但無論如何,超過90%的原創藝術家表示會對AI使用自己的風格有所介懷,希望AI繪畫的相關作品能向版權付費或有所標註。目前仍有較多的AI繪畫模型是通過搜尋互聯網相關圖片元素來進行藝術創作,背后涉及的版權問題將成為AI繪畫發展亟待解決的重點。
市場空間方面,未來五年或將有10%-30%的圖片內容由AI參與生成,相應或將有600億以上的市場規模。在AI繪畫技術持續快速發展的當下,更成熟易用的產品不斷推陳出新。在此基礎上,AI繪畫已經能承擔圖像內容生成的輔助性工作,前期初稿的形成可以由AI提供,后期再由創作者進行調整,這將提高內容產出的效率。而根據6pen的預測,若未來五年10%-30%的圖片在AI的幫助下誕生,則將創造超過600億元的市場空間,而若考慮到下一代互聯網對內容需求的迅速提升,則可能創造更大的市場規模。
2.3. AI繪畫的星辰大海,文字轉3D箭在弦上
藉助NeRF神經輻射場模型,AI繪畫正嘗試從2D向3D生成,這為VR設備及下一代互聯網建設提供了重要幫助。3D或是下一代互聯網的「標配」,但這也意味着內容量指數級上升,AI將成為內容創作的核心輔助。從技術端來看,2020-2021年NVIDIA推出的GANverse3D已經能夠生成可自定義的3D圖形,並能進一步形成視頻內容,但由於GAN在對抗訓練中會受限於樣本特徵,該模型對於人類的生成尚不能有良好的解決方案。但NeRF模型利用深度學習完成了計算機圖形學中的3D渲染任務。
對於NeRF模型的探索,動態NeRF、全場景NeRF、光影變化效果、接近實時生成等細分賽道均有產品推出,但關鍵節點或是基於單張2D圖像生成3D模型,Google於2022年推出的PHORHUM已具備類似能力。AI繪畫在該方面的突破有望使用户上傳2D照片即能生成逼真的3D形象,從而擁有在VR世界中的優秀「替身」。
更進一步的探索或是文字向3D模型的直接轉換,在AI的幫助下,僅需輸入幻想世界的文字,即能生成一個全新的3D空間。目前,文字向2D圖像的跨模態生成已經成熟,隨着2D向3D模型轉換的發展,可以認為從文字出發有望創造3D世界。該項技術對於遊戲等多行業或將有所助益,也能使得在VR等設備為入口的下一代互聯網實現內容數量和質量的重要突破。
AI繪畫相關技術發展不及預期。目前無論是GAN模型、Diffusion模型、CLIP模型或是最新的NeRF模型均有各自明顯短板,如若問題無法得到及時解決,則可能使得AI繪畫發展低於預期。
商業化拓展低於預期。AI繪畫有能力成為內容創作的重要輔助,但若因版權等問題導致作品產出受限,則可能影響商業化拓展。