繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

AI知道「你在看哪里」:明略科技明敬PRE-MAP模型,破解你的注意力密碼

2025-07-23 18:29

AI不再只「看得見」,它開始「看得懂」——不僅懂你在視頻中注視的具體位置,更懂你是誰,並據此做出精準預測。這正是明略科技的研究成果《PRE-MAP: Personalized Reinforced Eye-tracking Multimodal LLM for High-Resolution Multi-Attribute Point Prediction》的核心突破,該論文近日已被全球多媒體技術領域的旗艦會議ACM MM 2025正式接收,得到了廣泛關注。

這項創新成果的目標看似單一:預測用户在廣告視頻中的注視點。但其背后的技術矩陣堪稱「多模態AI的頂配組合」:大語言模型(LLM)、多模態學習、個體屬性建模、眼動數據採集、高分辨率圖像處理與強化學習。

image

圖片來源:明略科技

當它被置於「注意力即價值」的廣告營銷場景中時,一場真正的變革已悄然開啟。

個性化注意力預測:廣告測量的下一張王牌

廣告最看重的,是「受眾是否看到了重要信息」,而不是廣告主「在廣告里放置了什麼信息」。但這個「看」,卻沒有被真正精確地量化過。

過去,無論是焦點小組、A/B Test,還是后期行為追蹤,都屬於事后統計,是對有限樣本的效果覆盤。而明略科技的最新研究則帶來了新的解題方法:用AI模擬用户的真實注視行為,提前預判人對廣告內容的注意力分佈,並實現個性化差異呈現。

它是如何做到的?明略科技以兩項基礎創新為支點:一個是超大規模的真實眼動數據集SPA-ADV;另一個是創新的注視點預測模型明敬PRE-MAP。

SPA-ADV數據集涵蓋了4500多名不同年齡段、性別的真實用户對486個精選廣告視頻的細緻注視記錄,包括眼球運動軌跡以及精確的注視點座標等真實視覺行為,為個性化顯著性建模提供了高質量的基準數據支持。

image

圖片來源:明略科技

這也為明敬PRE-MAP的「個性化預測」能力提供了豐富的「數據燃油」,使它不僅能夠預測「人會看哪里」,更能進一步預判「一個30歲女性可能會在視頻第3秒看向畫面的哪個區域」。

這標誌着廣告評估領域,正迎來從「羣體平均」到「個體洞察」的結構性躍遷。

大模型的新任務:從生成到認知推理

與當前大熱的文生圖、視頻生成不同,明敬PRE-MAP大模型的應用不是爲了生成內容,而是爲了「感知內容,並推理人類視覺行為」。這正是多模態大模型邁向下一階段的關鍵能力:理解人類是如何感知世界的,從而更好地發揮人機協同的價值。

明敬PRE-MAP背后的建模邏輯很清晰:將用户屬性(如年齡、性別)通過Prompt嵌入模型,配合高分辨率廣告視頻段,輸出用户在該場景中可能產生的注視點座標,並生成可視化熱圖。

從技術實現來看,明敬PRE-MAP拋棄了傳統的低分辨率特徵圖上採樣重建方法,採用了「點式預測」機制,即直接輸出一幀圖像中用户可能注視的若干個點。比起「模糊的熱區」,這種機制可以更真實、更精準地還原人眼的真實運動軌跡。

image

圖片來源:明略科技

論文的實驗結果充分驗證了這一點。與SUM、Transalnet等多個主流模型相比,明敬PRE-MAP在各項評估指標上均表現出顯著優勢,其預測的注視點分佈精準,邊緣與人眼的真實注視位置高度吻合。

隨着模型持續演進,未來的明敬PRE-MAP甚至可能明確指出:「該用户的第一注視點是左上角人物的眼睛,第二注視點是右下角的品牌Logo,第三是中央字幕。」

這種高精度點式輸出,對廣告主而言價值巨大:它不只是「知道你是否在看」,而是「知道你先看哪、后看哪、忽略了什麼」,並據此優化廣告內容,抓住更多注意力。

技術解構:精準和個性化的雙重突破

明敬PRE-MAP模型的技術核心包括兩部分,分別解決了「個性化預測」「精準定位」的技術難題。

一方面,模型通過多屬性點式注意力建模進一步增強預測位置的精度,讓大模型更容易精確定位不同屬性人們的注意力焦點;另一方面,模型通過C-GRPO機制讓預測結果更容易被清晰呈現:

● 多屬性點式注意力建模(Multi-Attribute Point-Based Attention):基於多模態大模型(MLLMs),融合用户屬性(如性別、年齡)與視頻語義內容,引導模型在高分辨率視頻幀上直接預測個性化注視點,提升預測的針對性與分辨率保真度。

● Consistency Group Relative Policy Optimization(C-GRPO):一種基於強化學習的優化機制,通過對預測點的空間一致性與格式規範進行策略約束,進一步增強個性化注視點預測的可控性與精度。

image

圖片來源:明略科技

廣告之外的更大圖景:把「人」的認知反饋嵌入AI系統

明敬PRE-MAP的研究無疑是廣告測量領域的一劑強心針,但它背后的技術邏輯價值遠不止於此。它提供了一套新的思路——AI系統應當學會感知、理解並模擬人類的主觀認知反饋,並將其融入生成與推理中。

這對於AI Agent、推薦系統、遊戲設計、教育內容編排等不同場景同樣具有啓發意義。例如:

教育視頻如何根據不同年齡段學生的注意力模式優化鏡頭?

遊戲中的視覺引導如何為不同玩家羣體進行個性化設計?

短視頻封面生成系統能否優先考慮不同用户的視覺興趣點?

明敬PRE-MAP所構建的高分辨率注視預測 + 多模態大模型建模 + 可控輸出機制,為這些問題提供了新的啟示。

長遠來看,對包括廣告在內的廣泛行業而言,它將使「創意」成為一個更可量化、可測試、可優化的技術問題。對AI大模型的發展而言,它是將「人類感知」嵌入大模型的前瞻性嘗試。理想的未來圖景中,AI能夠理解人類的需求、意圖和情感,並提供相應的支持與解決方案,人類也能更好地理解AI的內容生成與決策過程,從而建立更加和諧有效的人機關係。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。