繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

明略科技吳明輝:通用Benchmark就像學科考試,每個領域要有自己的評估體系

2025-09-17 11:00

9月16日,2025騰訊全球數字生態大會盛大啟幕。本屆大會以「智·向遠大」為主題,聚焦全球科技、產業發展新趨勢,探討如何以自主創新技術,助力千行百業深挖智能化、國際化新機遇,以高效數字化推動產業升級與可持續發展。

作為企業級大模型與智能體賽道的領先者,明略科技創始人、CEO兼CTO吳明輝受邀出席「互聯網AI應用」專場,發表《多模態大模型在營銷場景的落地實踐》主題演講,分享明略科技AI前沿成果與落地實踐。

以下為演講全文:

image

圖片來源:明略科技

明略科技創始人、CEO兼CTO  吳明輝

各位現場的朋友們,大家好!

想必大家對明略並不陌生,過去我們在大數據領域深耕多年,與騰訊等企業也有着緊密的合作。近幾年,我們開始聚焦企業級大模型與智能體,而我本人碩博階段的研究方向也是 AI 領域,所以今天很高興能和大家分享我們明略在 AI 賽道上的探索。

在分享具體工作前,我想先和大家探討一個關鍵話題 ——benchmark。我認為,未來無論是 AI 企業,還是各個細分行業的企業,都必須重視 benchmark,但我們關注的不應是通用基準測試,真正有價值的是針對具體細分場景的 benchmark。如果一家企業連自己獨有的 benchmark 都沒有,坦白説,不僅未來可能在科技行業中被淘汰,甚至都無法稱之為一家真正的科技公司。

我讀碩士時主攻計算機視覺(CV),研究方向包括指紋掌紋識別、文檔識別。前陣子我偶然發現,我家小朋友在中學 AI 課程上做的項目,竟然已經能完成我當年碩士階段的研究工作。這也讓我意識到,如今從事 IT 和技術領域的我們,面臨着巨大的壓力。普通代碼的價值正在大幅降低,無論是基礎類代碼,還是我們之前討論的各類業務代碼,AI 都能高效完成。那麼,我們真正的核心競爭力在哪里?我認為,最重要的是要有屬於自己的獨特技術體系和差異化優勢。

2024年,我帶領團隊在澳大利亞墨爾本參加全球頂會ACMMM,當時大會首場主題演講的嘉賓是香港科技大學的一位教授,他在總結智能體未來發展趨勢時提到,無論是智能體還是 AI 模型,處理的任務都可以分為兩類:客觀感知(objective perception)和主觀感知(subjective perception)。

什麼是 「主觀」,什麼是 「客觀」?這背后涉及一個哲學問題。從 benchmark 的角度出發,我們可以結合實際業務場景來分析。我們明略為企業客户做廣告輿情分析,而輿情分析的核心環節之一就是情感分析 —— 判斷一篇文章、一個視頻中傳遞的情感是正面還是負面。過去,很多全球人工智能峰會都會舉辦情感分析競賽。表面上看,情感分析是典型的 「主觀任務」,但后來我們發現,大部分情感分析競賽的 benchmark 設計,存在明顯問題:雖然是主觀任務,卻採用了客觀的評估方式。這類 benchmark 通常是讓標註人員判斷每個內容的情感傾向(正面 / 負面),之后讓 AI 模型的分析結果與人工標註結果進行比對,最終得出一個評測指標,並將其稱之為 「主觀分數」。

然而,從哲學層面講,「主觀」 的核心在於,不同人對同一件事可能持有不同觀點。如果所有人都遵循統一標準,那本質上就是 「客觀」 評估。因此,當時市場上並不存在真正意義上的 「主觀情感分析 benchmark」,所有情感分析評測本質上都是客觀評估 —— 因為都是基於統一的 「標準答案」。

斯坦福大學李飛飛教授曾經提到,無論 AI 模型經過多少輪訓練,目前仍無法像人類一樣,具備真正意義上的主觀情感理解能力。

如何評估「主觀」 ,這確實是一個值得深入探討的問題。當我們在 ACMMM 2024 分享論文時,充分表明了決心:我們要構建一個新的 benchmark。

image

圖片來源:明略科技

明略科技研究成果在ACMMM2024會議現場榮獲最佳論文提名獎

我們為什麼要花精力做這件事情?核心原因是我們想解決廣告營銷行業的實際痛點 —— 廣告內容測試。大家可以回想一下,我們每天在視頻號、抖音等平臺會看到大量廣告,既有圖文形式,也有視頻形式。對於廣告客户來説,投放一支廣告的成本極高。除了拍攝廣告片需要投入大量資金,后續在各大媒體平臺購買流量的費用更是遠超拍攝成本。因此,在廣告正式投放前,客户必須先測試廣告片的效果。判斷廣告是否能吸引潛在消費者、是否能打動目標人羣。

過去,廣告測試的方法非常傳統,我們會把消費者請到實驗室觀看廣告,之后讓他們填寫問卷,根據問卷結果決定是否修改廣告或直接投放。后來,測試方法升級為消費者佩戴可穿戴設備,我們通過捕捉腦電、眼動等信號,分析消費者觀看視頻廣告時的情感變化。在這一過程中,我們積累了大量廣告片的測試信號數據,而這些信號正是 「主觀性」 的最佳體現。因為每個人的信號都不同,完全不存在統一標準。

大模型崛起后,通過把這些腦電、眼動信號與基礎大模型相結合,我們訓練出一個多模態的專業領域專家模型(specialize model)。在模型訓練過程中,我們採用了一種特殊的網絡結構 —— 超圖(hypergraph),這種結構與傳統圖論中的圖形結構不同,它能高效存儲廣告播放過程中各個視頻片段之間的相似度,最終通過超圖清晰地呈現出視頻的故事線和情節結構。通過超圖進行訓練,不僅效果好,而且訓練與計算成本遠低於 Transformer。這項超圖多模態大模型研究成果最終獲得了ACMMM2024最佳論文提名。

image

圖片來源:明略科技

目前,基於我們自研的超圖多模態大模型的產品——全球廣告創意優化與測試平臺 AdEff 已經正式上線。這是一款面向全球市場的 SaaS 產品,核心功能是可以測試同一支廣告片在不同人羣中產生的情感反應差異,這對出海企業意義重大。

現在很多中國品牌都在拓展海外市場,但不同國家、不同文化背景的消費者,對廣告內容的理解和接受度完全不同。在成本上,過去,在一個市場測試一支廣告片的成本大概需要 1 萬美元,現在,大模型將測試成本大幅壓縮。對企業來説,成本降低意味着他們可以進行更多的嘗試。現在很多客户的廣告片已經不是由廣告公司拍攝,而是用 AI 生成,生成后通過我們的產品快速測試,就能避免因廣告效果不佳導致的流量費用浪費。

更有意思的是,當企業測試完廣告片后,還能與大模型進行交互。比如,在廣告播放的第 3 秒到第 5 秒,消費者為什麼會感到興奮?大模型互動的邏輯其實正是動態推理,它可以用自然語言解釋信號升高的原因,分析對應用户羣體的想法。如果某個片段的廣告效果不好,大模型還能站在廣告拍攝專家的視角,給出具體的優化建議,這對客户的吸引力很大。因為過去邀請消費者到實驗室測試廣告,測試結束后消費者就離開了。當廣告主后續想深入瞭解 「當時消費者為什麼會興奮」 時,已經無法再聯繫到受訪者。但現在,客户隨時能與模型交互,挖掘背后的深層原因。

我們最近推出的另一款智能體 ——妙啊,聚焦爆款投流素材內容生成場景。當前短視頻營銷競爭激烈,很多企業過去一年才發佈幾十個廣告,現在一天就要上線幾百個廣告,否則很難在社媒平臺獲得足夠流量。然而,很多企業用大模型製作廣告,但最大的痛點是不知道該寫什麼 prompt,不知道如何設計劇情腳本。我們的「妙啊」可以幫助大家解決這個問題。

通過超圖多模態大模型,先從全網蒐集海量廣告素材,再通過模型拆解素材中的 「爆款片段」,之后將優質片段輸入到 「故事腳本生成模型」 中。因為我們已經預先解析了真正吸引消費者的內容素材,提煉出有效的腳本邏輯,所以真正挖掘出了消費者感興趣的內容,同時縮短了 「廣告創意」 到 「成片投放」 的周期。

總的來説,我認為,一方面,垂直領域有大量未被挖掘的AI應用場景,未來模型層必然是 「百家爭鳴」 的格局,絕非只有基礎模型公司。每個領域的模型都應該具備獨特性,關鍵在於要有自己「獨特的 benchmark」。對企業來説,通用 benchmark 就像基礎學科考試,判斷模型是否具備實戰能力,看的是每個行業獨有的評估體系。

另一方面,AI 的優化不應僅侷限於模型層面,未來還將延伸到智能體,甚至多智能體層面。多個智能體組成混合智能體,進行互相博弈,最終形成端到端的優化。

我們今年的重點工作之一是將模型推向全球市場。聚焦15個重點海外市場,深化模型訓練,將企業客户從中國出海企業拓展至海外市場的本土企業。同時,我們將推動構建一個覆蓋全球各個國家與地區的廣告素材庫,並與當地廣告學院、廣告評審專家合作,將專業反饋通過 RLHF(基於人類反饋的強化學習)的方式融入到模型訓練中。

目前,無論是做品牌廣告測試,還是效果廣告的內容生成,我們都歡迎大家體驗我們明略的產品,我們也將通過持續的技術創新,幫助企業創造更大價值。

謝謝大家!

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。