繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

快手解密AI印鈔機,生成式強化學習出價,實現超過3%的廣告收入提升

2025-09-23 13:13

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

(來源:機器之心Pro)

機器之心報道

編輯:Panda、張倩

前段時間,谷歌母公司 Alphabet 市值突破 3 萬億美元,成為第四家市值達到這一門檻的公司。

如果時間倒回到兩年半以前,谷歌自己可能都沒有想到這一結果。當時,ChatGPT 帶來的衝擊讓外界開始質疑谷歌能否守住營收,尤其是廣告營收。甚至還有人發出靈魂追問:谷歌會成為下一個諾基亞嗎?

然而,事實的發展出乎許多人意料 —— 谷歌不僅穩住了廣告基本盤,還通過將生成式 AI 融入搜索和廣告投放,提升了用户意圖理解和廣告匹配效率,讓廣告價值進一步放大。

在國內,我們也看到了這種趨勢。上個月,快手發佈了 Q2 財報。財報顯示,這一季度,快手線上營銷服務收入 198 億元,同比增長 12.8%。財報明確指出,大模型在投放出價、營銷推薦方面的應用取得顯著進展。在營銷出價方面,快手優化了生成式出價算法,運用強化學習和長期價值策略,提升了廣告轉化效果。在營銷推薦環節,快手利用大語言模型的內容理解和推理能力,採用生成式方法篩選廣告,深入挖掘用户行為與廣告轉化的關聯性,生成符合用户興趣的廣告內容,經過排序優化后顯著提高點擊率,推動營銷服務收入實現兩位數增長。這些信號表明,AI 技術正在從根本上驅動廣告行業的收入增長。

不過,從技術上來看,這不是一蹴而就的,相關技術在過去的幾年里經歷了多次迭代。以 實時競價(RTB)廣告系統中的「大規模廣告自動出價」問題為例,相關技術經歷了經典控制、規劃求解、強化學習、生成模型等數代演化,如今又迎來了「生成式強化學習」這一全新範式。

這一新範式由快手首次提出。其核心思想是「讓出價模型能多維思考」,更充分地利用歷史出價序列信息,從而做出更精準的決策。2025 年至今,這一範式已在快手廣告系統全面落地,在保持廣告主既定成本目標不劣化(成本達標不降) 的前提下,為平臺實現了超過 3% 的廣告收入提升。

那麼,這一效果是怎麼實現的?在快手發佈的幾篇論文中,我們可以找到答案。

廣告自動出價

在不確定中尋找最優解

在深入探討快手的技術革新之前,我們有必要先對「廣告自動出價」有一個基本的理解,尤其是其核心邏輯與挑戰。

簡單來説,廣告自動出價,也被稱為智能出價,是使用算法,根據用户廣告產生點擊或轉化的可能性自動為這些廣告設置出價。過程中無需手動更新,它會為用户完成所有繁重的工作,以相當於或優於現有效果目標的成本效益,推動實現更高的轉化量或轉化價值。

總結起來,相比於手動或人工出價,自動出價有三大優勢

實時出價系統示意圖 實時出價系統示意圖

然而,要實現理想的自動出價卻非易事,而這就涉及到了廣告出價的核心挑戰

針對這些挑戰,業界提出了許多不同的解決方案並一直在不斷迭代,比如互聯網廣告行業龍頭谷歌廣告(Google Ads)使用了一種基於機器學習的自動出價系統,它可藉助歷史轉化數據訓練點擊率(CTR)、轉化率(CVR)等預測模型,結合拍賣時上下文信號(設備、地理位置、時段、瀏覽環境等),在每次競價中實時調整出價(使用了強化學習思想),以最大化廣告主的 ROI(如轉化次數、收入、ROAS)的目標。

而快手的出價算法此前也已經經歷了多輪迭代,整體可以總結為從 PID、MPC 到強化學習(RL)的「三代」演化路徑。若將這一過程比喻為汽車工業的發展:

現如今,快手的出價算法已經進化到了第四代:生成式強化學習

顧名思義,生成式強化學習是一種將當今大熱的生成式模型與強化學習技術融合起來的新方法。它彌補了之前的強化學習的一些突出短板。

簡單來説,之前的強化學習技術有點像 「一維思考」,只根據單步狀態信息進行決策,對於出價狀態序列信息利用不夠充分。而生成模型(如 Transformer、Diffusion)特別擅長理解和生成有複雜模式的序列數據。反過來,生成模型本質是模仿數據集的動作,高度依賴數據集質量,難以優化序列整體價值;而強化學習能夠學到超出數據集效果的策略,直接優化序列整體價值,在原理上相比生成模型具有更高的收益空間。

這兩大範式互相增益,便造就了「生成式強化學習」,其能讓出價模型實現「多維思考」,從而更充分地利用歷史出價序列信息,從而做出更精準的決策。

雙劍合璧

詳解 GAVE 和 CBD 算法

將生成式模型的能力引入強化學習,無疑為廣告出價帶來了強大的新動能。但在實踐中,直接應用生成模型建模出價策略,也會面臨其固有的挑戰。

此前,業界已經探索了兩種使用生成模型的路徑:

具體到技術框架上,業界採用的主流方法有兩類:

Decision Transformer 架構

然而,無論採用哪種路徑,都必須面對兩大核心挑戰:

針對這兩大業界難題,快手商業化算法團隊提出了GAVECBD兩大創新算法,如同「雙劍合璧」,分別予以破解。

GAVE 算法,為探索配備價值羅盤,超越數據侷限

GAVE,全稱 Generative Auto-bidding framework with Value-Guided Explorations,即由價值引導探索實現的生成式自動出價框架,誕生於快手商業化算法團隊今年 4 月發表的同名論文。

該算法解決了將 Decision Transformer (DT) 架構應用與廣告自動出價的兩大挑戰:

具體來説,快手商業化算法團隊分別針對這兩大挑戰構建了一個解決方案:Score-based RTG(Return to Go)模塊和基於價值函數的動作探索機制。而 GAVE 便是這兩大解決方案的創新性融合。

GAVE 算法架構圖

其中,Score-based RTG 可把當前時刻到序列結尾的成本率約束加到每個時刻 t,使得 RTG 對齊最終評估指標(帶懲罰的總轉化)。通過靈活調整得分函數參數,框架可適配 CPA、ROI 等不同廣告場景需求,以實現目標導向的出價生成決策。

而基於價值函數的動作探索機制包含兩個模塊:動作探索和可學習價值函數。

那麼,GAVE 算法的表現如何呢?快手商業化算法團隊通過離線和在線實驗進行了驗證。

在 AuctionNet 基準上,GAVE 在不同預算設置與數據條件下均取得最優效果,相對於 DT 更是顯著提升。

GAVE 與其它基線方法的 AuctionNet 性能對比

不僅如此,該團隊還將 GAVE 算法部署到了其大型廣告系統中,進行了線上 A/B 測試。結果表明,在 Nobid(預算約束下最大化轉化)和 Costcap(CPA 約束下優化轉化)兩種場景中,GAVE 均顯著優於基線。GAVE 在真實廣告競價環境中的有效性與實用性得到了驗證。

在線 A/B 測試結果

據瞭解,該論文已被頂會 SIGIR 接收

CBD 算法,以補全+對齊破解目標難以對齊的挑戰

CBD 算法則是快手商業化算法團隊在本月初公佈的新方法,全名 Causal auto-Bidding method based on Diffusion completer-aligner,即基於擴散式補全器-對齊器的因果自動出價方法。

CBD 的提出是爲了解決基於 DT 的出價技術和直接應用擴散模型(Diffuser)的出價技術的不足。比如基於 DT 的出價技術可能導致誤差的累積,缺乏長程規劃能力,且可解釋性較差,而直接將 Diffuser 應用於廣告出價則可能遭遇生成狀態序列合法性問題難以和偏好對齊的問題

生成狀態序列一致性問題和偏好不對齊問題,圖中 (a) 和 (d)

為促使基於擴散模型的生成式強化學習出價模型與優化目標更好對齊,快手商業化算法團隊 為 CBD 算法創新性地引入了 Completer 和 Aligner 兩個模塊。

CBD 算法架構示意圖 CBD 算法架構示意圖

快手商業化算法團隊也已經通過實驗證明了新方案的有效性。前面關於「生成狀態序列一致性問題和偏好不對齊問題」的圖片中就給出了非常清晰的展示。可以看到,Completer 和 Aligner 的表現顯著優於通過條件式擴散建模實現的生成式自動出價方法 DiffBid,並極大地緩解了生成狀態序列一致性問題和偏好不對齊問題。

在基於 AuctionNet 的離線實驗中,如下表所示,基於所競得的總轉化價值(Value)指標,CBD 的表現明顯優於基線算法性能(包括離線強化學習和 DT 等生成模型方法)。

離線實驗中,不同方法競得的總轉化 Value

該團隊同樣也在快手的大型廣告系統中對 CBD 進行了在線 A/B 測試,結果也同樣非常亮眼。在保持相近預算(成本)的情況下,廣告主實現的平均轉化率(目標成本)提升2%

儘管該方法相比 DT 方法增加了 6ms 的額外延迟,但因為出價模型調用頻率是 20 秒一次,而每次可接受的最大返回時間是 26ms,因而 6ms 的延迟增加對於出價場景是完全可以接受的。該團隊在論文中寫道:「考慮到所取得的巨大商業價值,額外的推理延迟是值得且正當。」

快手商業化算法團隊

從賽場冠軍到實際業務增長

這些行業領先的技術成果,均出自快手商業化算法團隊之手。作為快手的核心算法部門,該團隊負責快手國內及海外多場景的廣告變現算法研發,致力於通過前沿算法驅動商業營銷增長,並持續優化用户體驗與客户效果。

該團隊在業界早已聲名鵲起。在 2024 年的機器學習頂會 NeurIPS 上,快手團隊從超過 1500 支國內外隊伍中脫穎而出,一舉包攬了「大規模拍賣中的自動出價」競賽通用賽道和 AIGB 賽道的雙料冠軍,成為賽事最大贏家。

快手包攬 NeurIPS 2024 Auto-Bidding in Large-Scale Auctions 比賽兩個賽道第一名

除此之外,團隊依託快手實際業務問題,在智能出價和廣告推薦均有大量研究成果產出,發表在KDD、ICLR、ICML、NeurIPS 等國際頂會上,並先后斬獲 CIKM Best Paper、SIGIR Best Paper 提名獎、錢偉長中文信息處理科學技術獎一等獎等榮譽。

從賽場冠軍到業務增長,這些學術與競賽上的硬實力,最終都轉化爲了驅動業務增長的強勁動力。如今,以 GAVE 和 CBD 為代表的生成式強化學習出價技術已在快手廣告系統中得到應用,在保持廣告主既定成本目標不劣化的前提下,為平臺實現了超過 3% 的廣告收入提升

廣告自動出價的未來

不止於此

從 PID 控制到 MPC 規劃,再到強化學習,快手在廣告出價領域的探索最終通過 GAVE 和 CBD 算法,邁入了「生成式強化學習」的全新階段。這不僅是技術的又一次迭代,更是決策理念的根本性躍遷 —— 從單步狀態決策,轉向基於歷史序列決策。已實現的廣告收入提升,僅僅是這場變革的開端。

展望未來,快手在生成式強化學習出價技術上的探索並未止步。基於當前的成功實踐,快手認為該技術仍存在兩大重要的演進方向:

總體來看,從賽場冠軍到業務增長,快手正通過對 AI 核心技術的持續探索和應用,不斷鞏固其在內容社區和數字廣告領域的領先地位。從出價基座大模型到推理能力的進化,快手不僅為自身的商業增長描繪了清晰的藍圖,也為整個行業的提供了極富想象力的發展和探索方向。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。