繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

騰訊用AI把美術管線重新做了一遍,混元3D Studio架構曝光

2025-09-22 19:13

混元3D Studio團隊 投稿

量子位 | 公眾號 QbitAI

建模師們有福了!

不用在建模、UV、貼圖軟件之間反覆橫跳,一個工作臺就能得到:

這是騰訊專為3D設計師、遊戲開發者、建模師等打造的專業級AI工作臺混元3D Studio

一個平臺搞定整套設計流程,不管是前期的概念設計、幾何建模,還是進一步的組件拆分、低模拓撲,以及后續貼圖、綁骨蒙皮、動畫等都能全覆蓋。

這下真讓3D資產生產周期從幾天變成分分鍾了。

那它是怎麼做到的呢?讓我們來個深度剖析。

七大核心技術模塊

核心架構

混元3D Studio整體是一個順序且模塊化的工作流程。

其中每個階段都會對資產進行處理,併爲下一個階段提供至關重要的數據輸入。從最初的創意到最終的遊戲資產,這一設計確保了整個過程的無縫銜接與自動化。

△

混元3D Studio工作流

整個工作流共包含:

可控圖像生成(概念設計):文本或圖像皆可作為輸入模態,支持文生圖和圖生多視圖功能。此外,專用的A-Pose標準化模塊確保角色模型骨架姿勢的一致性,風格遷移模塊則用於調整圖像視覺效果,以匹配目標遊戲的美術風格。

高保真幾何生成:基於當前先進的擴散模型架構,根據單視圖或多視圖圖像生成精細的三維網格模型(高模)。得益於強大的跟隨能力,能夠確保生成的幾何結構與輸入prompt高度一致,並極大地還原物體的3D表面細節。

低模拓撲生成(PolyGen):該模塊摒棄傳統的基於圖形學的重拓撲方法,採用自迴歸模型逐面地生成低多邊形資產。通過將幾何表面的點雲作為條件輸入,PolyGen能夠智能生成高保真網格對應的拓撲結構,適用於遊戲資產等應用場景,滿足低頂點數、結構合理以及良好變形適應的邊流分佈。

語義UV展開:不同於傳統的語義性差的傳統UV展開方法與人工UV展開。語義UV展開模塊實現了具備上下文語義感知的UV切線生成,可以依據模型的形狀與佈線分佈進行結構分析,提升UV拆分的語義性、合理性與可用性,進而有利於高質量紋理的生成。

綁骨蒙皮&動畫特效:在自動化的最后階段,該模塊能夠推斷骨骼關節位置與層級結構,並計算頂點權重,生成可直接用於標準遊戲引擎的可驅動動畫資產。

共七個核心技術模塊,其中每個模塊都對應資產製作流程中的某一關鍵階段,下面一個個來看。

組件拆分

給定一張輸入圖片,首先使用Huyuan3D獲取整體形狀。然后,將整體網格傳遞給部件檢測模塊P3-SAM以獲得語義特徵和部件的邊界框(bounding boxes)。最后,由X-Part將整體形狀分解為各個部件。

△

組件拆分整體流程

其中,P3-SAM(原生3D語義分割)是組件拆分生成流程中的關鍵步驟。

P3-SAM包含一個特徵提取器、三個分割頭和一個IoU(交併比)預測頭。

△

混元3D Studio工作流

PointTransformerV3作為特徵提取器,並融合其不同層級的特徵作為點級特徵。

輸入的點提示和特徵信息會被融合,並傳遞至分割頭,用於預測三個多尺度掩碼。

同時,IoU預測頭用於評估掩碼質量。為實現物體的自動分割,利用FPS(最遠點採樣)生成點提示,配合NMS(非極大值抑制)合併冗余掩碼。

點級掩碼隨后被投影到網格面上,從而獲得部件分割結果。

本方法的另一關鍵創新在於,完全摒棄2D SAM的影響,依賴於原生3D部件監督,進行原生3D分割模型的訓練。

△

X-Part流程

首先,為實現可控性提出了一個基於部件級提示的特徵提取模塊,利用包圍盒作為提示,指示部件的位置和尺寸,而不是直接將分割結果作為輸入。

其次,將語義特徵以精心設計的特徵擾動方式引入到框架中,這有助於實現有意義的部件分解。

爲了驗證X-Part的有效性,在多個基準數據集上進行了大量實驗。結果表明,X-Part在組件級分解和生成方面取得了當前最優的表現。

△

橫向量化比較

△

組建拆分橫向效果對比

△

組建拆分效果展示

可控圖像生成(概念設計)

可控圖像生成包含圖像風格化與姿態標準化兩大模塊。

圖像風格化模塊允許用户在3D建模前,通過配置選項一鍵生成多種主流遊戲美術風格的3D設計圖。

用户可提供任務對象圖像,並通過文本的風格化指令。格式為「Change the style to {style type} 3D model. White Background.」,從而生成內容保持一致且藝術風格精準符合指令要求的風格化輸出。

訓練數據以三元組形式構建: {輸入參考圖像,風格類型,風格化3D設計圖},實現對寫實圖像與風格化作品的精確映射。

針對無參考圖像的文本到圖像風格化的應用場景,系統先用自研通用文本圖像生成模型合成參考圖像,再經過圖像風格化流水線,最終輸出風格化作品。

△

風格化效果展示

針對任意角色參考圖像的姿態標準化(如A-pose),需兼顧姿態精準控制和角色一致性的嚴格保持,並需實現對參考圖像中背景和道具的消除。

為此,團隊將含任意姿態/視角的角色圖像作為條件輸入,注入來引導生成過程。

△

姿態標準化流程圖

數據集構建:首先基於角色渲染數據,構建[任意姿態/視角角色圖像,標準A-pose正面圖像]的圖像對。

訓練策略採用了分辨率遞進思路,自512×512起步,逐步升至768×768,促使模型更好地學習細粒度特徵,顯著提升生成圖像在面部、複雜服飾等細節部分的保真度。

此外,針對同一角色在不同場景下的參考圖像進行隨機條件輸入,提升姿態泛化能力和生成一致性。

團隊還特別收集了高質量數據集,涵蓋半身像、非人型類人物及擬人化角色等難度類型,並在后期採用SFT和DPO進一步微調,增強模型泛化性與魯棒性。

△

姿態標準化效果

高保真幾何生成

高保真幾何生成的工作流水線基於業界領先的Hunyuan3D框架,整體結構包含如下兩個子模塊:

Hunyuan3D-ShapeVAE:一種變分編碼–解碼式的Transformer結構,先對三維幾何體進行壓縮,再進行重構。

該模塊的編碼器輸入帶有三維位置和表面法向的點雲

,經過基於Vector-Set Transformer的重要性採樣,嵌入為緊湊的形狀潛變量z。解碼器則利用z查詢基於均勻網格的三維神經場

,位置網格為

,最終將神經場Fg映射為符號距離函數(SDF)值

△

幾何生成流程

Hunyuan3D-DiT:一種基於流的擴散模型,直接在ShapeVAE的潛空間操作。

網絡由21層Transformer堆疊而成,每層包含Mixture-of-Experts (MoE)子層,有效提升模型容量與表達力。

Hunyuan3D-DiT通過流匹配目標訓練,將高斯噪聲映射到形狀潛變量,實現形狀生成的高效及高質量採樣。

Hunyuan3D-DiT主要以單張輸入圖像為條件進行生成。該圖像首先被調整至518×518尺寸,背景被移除,隨后通過凍結的DINOv2骨干網絡[7]編碼為圖像潛變量

,並通過交叉注意力融合到生成的形狀潛變量中。

爲了進一步提供幾何和先驗指導,Hunyuan3D-Studio引入了兩項補充控制信號:

包圍盒條件控制對於給定的包圍盒,將其高、寬、長編碼為

,具體方式為兩層 MLP。隨后,將 與圖像潛變量 按序列維度拼接,形成最終條件向量。

在訓練過程中,有意對圖像或點雲進行微小的形變,使得圖像中的物體比例與對應點雲不完全一致,從而促使模型學會響應包圍盒這一控制信號。

多視圖圖像生成條件。為充分利用圖像生成模型的強大能力,將多視角圖像(由擴散模型生成)作為角色建模的額外條件約束。

△

多視圖生成流程

單圖到多視圖圖像生成。如圖所示,爲了從單張輸入圖像高保真地合成多視角視圖,本方案在預訓練文本到圖像基礎模型之上引入輕量LoRA適配層。訓練數據集由任意視角攝像機採集的物體中心視圖及其對應的多視圖真實圖像對組成。

訓練時,通過模型原生的變分自編碼器(VAE)分別將單視圖輸入與多視圖目標編碼為潛在表達。

LoRA層以兩個信息源為條件:一是無噪單視圖圖像的潛變量(與加噪的多視圖潛變量拼接用於結構引導);二是藉助預訓練 SigLIP 視覺編碼器提取的輸入圖像語義條件向量。最終用標準流匹配損失優化LoRA參數。

多視圖條件注入。與單圖條件類似,首先將所有視角圖像編碼為圖像潛變量

。每個除原始圖像外的視圖都注入一個帶固定索引的正弦位置編碼。其后,所有生成視圖的潛變量與原始圖像潛變量在序列維度拼接,形成最終條件向量。

△

包圍盒條件控制生成效果

△

多視圖條件控制生成效果展示

低模拓撲

在幾何生成高模或用户提供的模型基礎上,低模拓撲模塊的目標是生成乾淨、符合美術規範的拓撲結構。

儘管在高保真幾何生成模塊或組件拆分模塊已經生成了精緻的形狀,這些形狀通常由大量雜亂的三角面組成,難以直接用於下游應用(如語義UV展開和綁定)。

因此,採用自迴歸模型,直接從生成形狀的點雲預測低模拓撲的頂點和麪。

△

低模拓撲整體結構圖

網格分詞化(Mesh Tokenization)。爲了以下一個token預測範式建模網格,第一步是將其分詞為一維序列。

採用了Blocked and Patchified Tokenization (BPT)作為網格的基礎分詞方法。具體來説,BPT結合了兩個核心機制:

1)塊級索引(Block-wise Indexing),它將三維座標劃分爲離散空間塊,將笛卡爾座標轉化為塊偏移索引,以利用空間的局部性;

2)Patch聚合(Patch Aggregation),通過選取高度數頂點作為patch中心,將相連面片聚合為統一的patch,進一步壓縮面片級數據。每個patch以中心頂點及其外圍頂點的順序進行編碼,減少了頂點的重複,提高了空間一致性。通過BPT,模型的訓練和推理效率都得到了顯著提升。

網絡結構。低模拓撲模塊的網絡結構由點雲編碼器和自迴歸網格解碼器組成。點雲編碼器主要受到Michelangelo和 Hunyuan3D系列的啓發,採用Perceiver架構,將點雲編碼為條件編碼cp。

隨后,採用Hourglass Transformer作為網格解碼器骨干,通過交叉注意力層以點雲token作為條件進行解碼。

訓練和推理策略。網格token的分佈 由帶參數的Hourglass Transformer建模,通過最大化對數概率進行訓練。不同的條件cp通過交叉注意力(cross-attention)融合進模型。

爲了進一步利用高多邊形網格數據並提升訓練效率,本方案採用了截斷訓練策略(truncated training strategy)。具體來説,每次訓練迭代時,會隨機選取長度為固定面數(如4k面)的網格序列片段進行訓練。而在推理階段,我們應用滾動緩存(rolling cache)策略,以縮小訓練和推理階段之間的差異。

基於拓撲感知掩碼的DPO網格生成后訓練。本方案建立了一條用於第二階段微調的偏好數據集構建流程,該流程包含候選生成、多指標評估和偏好排序。對於每個輸入點雲P ,我們利用預訓練模型 生成八個候選網格

每個候選網格會通過三項指標進行評估:邊界邊比(Boundary Edge Ratio, BER)和拓撲分數(Topology Score, TS)用於衡量拓撲質量,豪斯多夫距離(Hausdorff Distance, HD)用於衡量幾何一致性。

當且僅當滿足以下條件時,偏好關係

被定義:

從所有兩兩比較中整理出偏好三元組 ,以構建數據集。

爲了解決局部幾何缺陷和麪密度不一致的問題,採用了掩碼直達偏好優化(Masked Direct Preference Optimization, M-DPO),它在DPO的基礎上擴展了質量感知的定位掩碼。本節定義了一個二值掩碼函數

,該函數用於根據每個面的質量評估將高質量區域(值為1)與低質量區域(值為0)區分開來。
每個區域對應於塊補丁分詞(block patch tokenization, BPT)中的一個子序列。只有當子序列中的所有面片的四邊形比例超過預設閾值且平均拓撲分數超出另一閾值時,該子序列纔會被判定為高質量區域。令

為凍結的參考模型,

為可訓練策略。M-DPO的目標函數為:

其中,正項和負項分別是:

這里, 表示元素逐位相乘,

範數。M-DPO實現了對低質量區域的有針對性的細化,同時保持了質量令人滿意的區域。

下圖展示了后訓練后的改進效果,實驗結果表明后訓練階段對於提升生成網格的完整性和拓撲質量至關重要。

△

預訓練預后訓練效果對比

如圖所示,本方案與現有的低模拓撲方法對比如下。從圖中可以看出,本方案能夠生成結構更復雜且拓撲質量和穩定性顯著提升的網格。

△

與其他方案效果對比

△

基於組件拆分Mesh的低模拓撲生成效果

△

不同面數級別低模拓撲效果對比

語義UV展開

傳統UV展開方法的結果往往缺乏語義意義,這將顯著影響后續貼圖的質量與資源利用效率。

因此,這些傳統方法難以直接應用於遊戲開發、影視製作等專業流水線。為應對這一挑戰,本節提出了一個通過自迴歸方式生成藝術家風格裁切縫的新型框架SeamGPT。

將曲面裁切問題建模為序列預測任務,將裁切縫表示為有序的三維線段序列。給定輸入網格M,目標是生成縫邊

。SeamGPT的整體流程如下圖所示。

△

SeamGPT整體架構圖

本方案採用兩種損失函數進行模型訓練:用於token預測的交叉熵損失和用於正則化形狀嵌入空間的KL散度損失,確保該空間保持緊湊且連續。模型經過一周訓練后收斂。

訓練期間,首先將所有樣本縮放至一個立方體邊界框內,範圍為−1到1。隨后應用數據增強技術,包括在 [0.95,1.05]區間內的隨機縮放、隨機頂點抖動和隨機旋轉。

△

與其它方法的量化比較

△

可視化對比

混元3D團隊提出了一種高保真的紋理合成方法:將二維擴散模型擴展為幾何條件下的多視角生成模型,並通過視圖投影將其結果烘焙為高分辨率的紋理貼圖。

該體系結構系統性地解決了多視角紋理生成的兩個核心挑戰:

跨視角一致性與幾何對齊;

RGB紋理向光照真實PBR材質紋理的擴展

最后,引入了一種4K材質球生成模型,能夠根據文本提示合成高分辨率的可平鋪紋理球,包括基礎色(Base Color)、金屬度(Metallic)、粗糙度(Roughness)和法線貼圖(Normal),以支持專業的藝術創作流程。

為判斷輸入圖像是否與目標幾何體匹配,團隊計算幾何渲染視圖與輸入圖像之間的CLIP相似度。當引導圖像與目標網格具有較高的幾何對應關係時,通過變分自編碼器(VAE)編碼器注入圖像特徵;

△

基於材質的3D分割。對於分割任務,本方案採用了類似於PartField的分割框架。

該框架首先從輸入的點雲或網格數據中提取特徵,隨后基於提取的三維點特徵進行聚類,將三平面(triplane)表示轉換為更緊湊的VecSet表示。

特徵提取模塊通過包含30萬個三維資產的數據集進行端到端訓練。

在零件標註方面,利用了原始三維資產中嵌入的材質槽和零件標註,同時過濾掉不可靠的零件數據。

在聚類過程中,採用SAM來確定初始的聚類中心數量,從而保證聚類的魯棒性和性能。

△

材質圖生成流程

4K材質圖生成。本節創新性地改編了原本用於編碼連續視頻幀的3D VAE框架,將多域材質數據(包括渲染圖、基礎色、凹凸、粗糙度、金屬度等)壓縮為統一的潛在表示,從而實現可擴展的4K分辨率紋理合成。

具體而言,通過帶有紋理的三維資產對3D VAE進行微調,以實現域不變的特徵提取,得到一個PBR-VAE模塊。隨后,使用材質球數據集對3D擴散變壓器(Diffusion Transformer,DiT)進行微調,構建了材質球生成模型的核心架構。

綁骨蒙皮&動畫特效

本節介紹了綁骨蒙皮與動畫特效模塊,該模塊由兩大部分組成:人形角色動畫模塊通用角色動畫模塊

每個角色輸入首先經過檢測模塊處理。如果輸入被判定為人形角色,則進入人形動畫分支;否則,轉入通用動畫分支。

人形分支包括基於模板的自動綁定模塊動作重定向模塊

為在骨骼生成的準確性與易用性之間取得平衡,團隊採用22個身體關節作為模板骨骼。類似構建綁定與蒙皮模型,但與其在蒙皮預測中未融合綁定相關信息不同,本方案的模型同時整合骨骼特徵和頂點特徵,以實現更精確的結果。

此外,系統還包含姿勢標準化模塊,將用户提供的任意姿勢模型轉換為標準的T型姿勢。將T型姿勢模型輸入動作重定向模塊,可獲得更可靠且精確的效果。

相較之下,通用分支融合了自迴歸骨骼生成模塊與幾何拓撲感知蒙皮模塊。由於通用角色在骨骼拓撲和關節數量上存在差異,大多數現有骨骼生成方法基於自迴歸技術,本研究模塊即建立在這些自迴歸方法之上。

關於蒙皮模塊,以往算法通常僅將網格頂點和骨骼關節作為輸入特徵,較少關注它們之間的拓撲關係。相比之下,團隊的蒙皮模塊顯式融合了這些拓撲關係,從而帶來更穩健和穩定的結果。

△

與其它方法的綁骨蒙皮效果對比

△

動作驅動效果展示

以上模塊通過統一的資產圖進行協同管理,各階段輸出的元數據會傳遞至下游流程。

這種機制實現了參數化控制,使高層次的美術調整能夠貫穿整個管線,同時具備可逆性,支持增量式更新而無需全量重算。

最終輸出可以根據目標遊戲引擎(如Unity或Unreal Engine)的規範進行配置與導出。

(聲明:本文僅代表作者觀點,不代表新浪網立場。)

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。