熱門資訊> 正文
2025-10-18 15:30
CountHalluSet團隊 投稿
量子位 | 公眾號 QbitAI
擴散概率模型(diffusion probability models,DPMs)在圖像生成任務上取得了卓越的成就,但它們仍頻繁產生與現實世界知識相悖的「幻覺樣本」(hallucinations),例如生成有六根手指的手掌或者漂浮在空中的多余物體 。
儘管這類問題普遍存在,社區卻一直缺乏系統性量化這些事實性錯誤的方法,這阻礙了下一代高可信度生成模型的研發進程。
為填補這一空白,來自阿德萊德大學、美團和上海交通大學的研究團隊,首次對擴散模型中的一類特殊幻覺——「計數幻覺」 (counting hallucination)進行了系統性的研究 。
他們提出了幾個關鍵問題:
如何準確量化擴散模型「數錯數」的問題?
增加採樣步數等常用求解器優化技巧是改善還是加劇了這個問題?
FID等主流圖像質量評價指標能否有效捕捉到這類細粒度的錯誤?以及如何緩解擴散模型中的計數幻覺問題?
爲了回答這些問題,該團隊構建了首個用於量化計數幻覺的數據集套件CountHalluSet,並通過大量實驗揭示了計數幻覺與擴散模型中不同採樣條件之間的複雜關係。
更重要的是,他們基於實驗提出了一種簡單而有效的聯合擴散模型(Joint-Diffusion Model,JDM),能夠顯著減少複雜真實圖像中的計數幻覺和其它非計數類失敗問題。
CountHalluSet: 計數幻覺評測基準
研究團隊構建了包含三個數據集的CountHalluSet套件,其可數物體的形態複雜性逐級遞增:
ToyShape: 包含簡單的幾何圖形(三角形、正方形、五邊形)。
SimObject: 包含照片級逼真度的日常三維物體(杯子、蘋果、時鍾)。
RealHand: 包含真實的、姿態各異的人手圖像。
CountHalluSet由三個覆蓋不同形態複雜度層級的可計數對象數據集組成:ToyShape(三角形、正方形、五邊形)、SimObject(馬克杯、蘋果、時鍾)以及RealHand(手指)。
此外,每個數據集有着各自的計數規則。在ToyShape和SimObject數據集中,每張圖像最多包含每個類別的一個實例,且至少包含一個對象,而在RealHand數據集中,每張圖像必須嚴格包含五根手指。
所謂計數幻覺,是指生成模型產生的圖像違反了該數據集的計數事實,例如在一張圖中生成了兩個蘋果,或僅生成了背景而沒有任何對象,而這些模式在SimObject數據集中從未出現過。
各個數據集的計數幻覺評測流程如上圖所示。對於ToyShape與SimObject數據集,生成圖像可直接用於計數評估,由於它們的簡單性和罕見的嚴重低質量圖像。
而在RealHand數據集中,團隊引入了「可計數性指示器(counting-ready indicator)」,用於區分計數幻覺樣本與其他非計數類失敗樣本(如嚴重變形的手指)情況。
具體地,他們使用了一個MaxViT作為可計數性指示器,它是二分類器,在超過2.5千張代表性樣本上訓練得到。對於ToyShape與SimObject數據集,團隊構建了一個超過400,000個樣本的大型ToyShape/SimObject數據集,每個樣本出現0-3次,以微調ResNet-50得到它們對應的「計數模型(counting model)」。
對於RealHand數據集,他們在超過2k張手部生成圖像上對YOLO-12模型進行了微調,訓練檢測指尖,來得到該數據集的計數模型。
利用這些計數模型,團隊可以檢測生成圖像中的對象出現次數,從而判斷它們是否違反了數據集中的計數規則,最終實現量化計數幻覺。
比如,給定一個counting-ready樣本,如果YOLO模型檢測出該樣本存在6個指尖,那麼它就會被歸類為計數幻覺樣本。
實驗及核心發現
量化實驗
研究者們在擴散模型不同的採樣條件下,量化了各個數據集生成樣本的計數幻覺率,結果如下表所示:
發現一:採樣步數對幻覺的影響呈現「合成–真實」分化趨勢
研究發現,在常用的ODE求解器(25、50、100步)設置下,增加採樣步數能有效降低合成數據集(ToyShape、SimObject)的計數幻覺率(CHR),但在真實數據集(RealHand)中卻反而提升了計數幻覺率。
這表明:合成數據因結構簡單、分佈規則,能從更細粒度的求解器中獲益;而真實數據分佈更復雜,額外的採樣步可能過度擬合局部不一致,從而放大幻覺。
發現二:更高階的ODE求解器可降低總體失敗率,卻提升計數幻覺率
作為另一種ODE優化策略,DPM-Solver-2在相同步數下生成質量一般優於DPM-Solver-1。儘管這一策略顯著降低了RealHand數據集的總體失敗率(TFR),但卻增加了計數幻覺率。
這揭示出:更高階求解器雖能穩定全局結構,但可能削弱了模型對對象計數約束的敏感性。
發現三:祖先採樣(DDPM)在幻覺抑制上表現最優
在所有對比中,DDPM始終實現最低的計數幻覺率、非計數類失敗率和總體失敗率。
這意味着:祖先採樣為生成模型的失敗率提供了一個現實下限,尤其在計算效率不是主要限制時,是最有效的減幻覺策略。
發現四:更合理的初始噪聲可顯著降低幻覺率
相較於標準高斯噪聲(Normal),使用「擴散」噪聲(Ground-truth初始噪聲)能同時降低計數幻覺率、非計數類失敗率和總體失敗率。
這一結果表明:初始化的一致性對生成穩定性至關重要,更符合訓練分佈的噪聲可有效緩解幻覺現象。
發現五:對象形態越複雜,計數幻覺越顯著
隨着對象形態從簡單幾何體(ToyShape)、中等複雜的合成物體(SimObject)到真實生物結構(RealHand)逐漸複雜,計數幻覺率持續上升。
這表明:結構複雜性顯著挑戰了擴散模型保持正確對象計數的能力。模型在處理高複雜度形態時更容易出現對象的「遺漏」或「重複」,解釋了為何當前擴散模型儘管生成能力強大,卻仍普遍存在幻覺問題。
相關性實驗
計數幻覺本質上是事實性幻覺的一種具體的形式。直覺上,人們或許會認為,當擴散模型在感知層面生成質量更高、分佈差距更小的圖像(即更低的FID)時,其事實一致性也會相應提升。然而,該研究團隊的系統性實驗結果表明——事實並非如此。
研究者們在不同數據集與求解器條件下進行了相關性分析,發現如下表所示:
發現一:計數幻覺與FID之間的相關性並非固有,而取決於數據集與求解器類型
在SimObject數據集中,計數幻覺率(CHR)與FID呈顯著正相關(Pearson = 0.8762, p = 0.0119),表明更低的FID對應更少的計數幻覺;然而在RealHand中卻出現強負相關(Pearson = -0.9134, p = 0.0109),説明兩者關係可能反轉。
進一步地,當將DDPM結果納入分析時(「incl. DDPM」),這種相關性顯著減弱,揭示了其依賴於採樣條件與求解器的非穩定性。
發現二:非計數類失敗率與FID之間的相關性則穩定且顯著
與計數幻覺率(CHR)不同,非計數失敗率(NCFR)與總體失敗率(TFR)在各條件下均與FID高度正相關(Pearson/Spearman>0.94,p<0.001),説明FID更能反映模型在整體視覺一致性上的表現,而在刻畫對象計數等事實性特徵時存在明顯侷限。 這些結果共同揭示:FID雖能衡量視覺質量,卻不能代表模型的事實可靠性。
解決方案:聯合擴散模型(Joint-Diffusion Model,JDM)
既然模型在處理簡單結構時不易出錯,研究者提出了一個問題:如果在擴散過程中為模型提供明確的結構性約束,能否引導其生成正確的物體數量?
基於此,團隊設計了聯合擴散模型(JDM)。該模型在訓練時,將原始手部圖像和其對應的分割掩碼(作為結構約束)在通道維度上進行拼接,使模型能夠在共享的潛在空間中同時學習視覺表徵與結構化的事實約束。具體而言,他們利用SAM-2提取的手部掩碼進行通道級連接,為擴散模型提供清晰的像素級結構約束,從而在生成過程中顯式控制空間佈局。
這種機制使模型不僅遵守預定義的空間結構,還能在隱式層面形成語義一致且解剖合理的手部生成結果。通過在共享潛在空間內聯合學習視覺特徵與結構掩碼約束,JDM顯著提升了生成結果的語義一致性與視覺可信度,有效緩解了計數幻覺問題。
討論與未來展望
這項工作的核心意義在於,它首次將擴散模型中模糊、主觀的「幻覺」問題,轉化為一個可定義、可量化、可系統性分析的「計數幻覺」問題。
研究結果對當前領域的一些普遍認知構成了挑戰:讓人們不能再盲目相信「更多的採樣步數、更高階的求解器總能帶來更好的結果」,也不能再完全依賴FID這類傳統指標來評判模型的「事實準確性」 。
這項研究為社區提供了一套全新的評測基準(CountHalluSet)和評估視角,推動行業從僅僅關注「生成得美不美」,轉向同時關注「生成得對不對」,這對提升生成模型的可靠性和可信度至關重要。
未來,這項工作為探索更高階的「事實一致性」生成模型開闢了廣闊的道路:
從「計數」到「萬物」:當前研究聚焦於物體數量,未來的工作可將這種量化分析方法擴展到更復雜的幻覺類型,如不合邏輯的空間關係、違反物理規律的現象(例如錯誤的光影反射)以及幾何結構錯誤等。
更泛化的約束方法:本文提出的JDM模型驗證了引入顯式結構約束的有效性 。未來的研究可以探索如何將更抽象、更復雜的知識(如場景圖、物理規則、符號邏輯)融入擴散過程,發展出一種「事實約束下的生成」新範式。
最終目標:解決計數幻覺只是構建可信AI的第一步。通過持續攻克各類事實性錯誤,團隊有望將生成模型從一個單純的「創意工具」轉變為一個可靠的「世界模型(world model)」,使其在科學模擬、工程設計、醫學影像等對準確性要求極高的關鍵領域中發揮核心作用 。
論文地址:https://arxiv.org/pdf/2510.13080代碼主頁:https://github.com/ShyFoo/CountHallu-Diff
(聲明:本文僅代表作者觀點,不代表新浪網立場。)