繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

姚順雨的最新成果,纔是騰訊發完 10 億紅包后決戰 AI 的關鍵

2026-02-07 16:42

還沒有進入春節,各大廠商已經迫不及待了:前有元寶大派紅包,馬上千問就豪請奶茶——花不了多少錢,30 個小目標罷了。 

預算在前面燒,基建在后面搭,畢竟等推廣預算燒完,能做到多少用户留存,就要看產品本身了。這樣一看,騰訊在下半年把前 OpenAI 研究員、清華姚班的天才少年姚順雨挖到手,可謂計之長遠。 

執掌騰訊 AI 之后,近日姚順雨終於發出了第一項署名研究,這是騰訊混元團隊聯合復旦大學發佈的研究,把目光聚集到了上下文。這似乎是一個略顯冷門的技術點,但研究的發現是能讓所有日常都在玩 AI 的用户背脊一涼的:如果我們把大模型從「背書模式」切換到「現學現賣模式」,即使是目前地球上最強的 AI,得分率也只有慘淡的 23.7%。

這項研究遠不止是一個技術圈的八卦,它直接揭示了為什麼作為普通用户的你,經常覺得 AI 「聽不懂人話」、「死腦筋」或者「胡說八道」。如果説有什麼是 AI 的阿喀琉斯之踵,那上下文(Context)當如是。

上下文:AI 的靈魂 

要理解這項研究的價值,我們需要先搞清楚大模型運作的兩個基本階段。 

第一個階段是預訓練。在這個過程中,模型通過閲讀互聯網上浩如煙海的數據,記住了海量的知識和模式。這一點現在大家應該都不陌生了。這是 AI 知識儲備的來源,也是它能夠回答通用問題的基礎。 

但問題在於,預訓練數據是靜態的,它反映的是模型訓練截止日期之前的世界。一旦脱離了這個範圍,模型就會變得盲目——而真實世界是動態的。 

這就來到第二個階段,情境學習,也就是我們常説的上下文處理。當你把一段全新的、內部的、或者是極其複雜的規則文本發給 AI 時,你實際上是在要求它跳出預訓練的記憶,根據眼前的信息進行實時推理和判斷。 

像什麼呢?比如公司內部剛剛開完會之后的紀要,或者你玩的遊戲有了新活動,這些知識從未在互聯網上出現過,只能由你把規則、信息(即「上下文」)扔給 AI,讓它根據這些新知識來回答問題。 

這纔是現實,互聯網上並非應有盡有,模型對於上下文的學習能力可以説是非常重要,甚至可以説:上下文,就是 AI 的靈魂。 

如果 AI 記不住、或者理解錯了上下文,它就會開始編造(幻覺),可能會根據它「記憶」里通用規則來回答——會議紀要里明明説行政部要負責下午茶,它卻説是產品經理管這事兒。 

這就是混元團隊這次建設 CL-bench 在乾的事情。他們構建了近 2000 個從未在互聯網上公開過的、由專家精心構造的「全新情境」,有虛構的法律體系,新的編程語言語法等等。 

根據 CL-bench 的排行榜,目前最先進的 GPT-5.1 (High) 模型的正確率僅為 23.7%,Claude Opus 4.5 約為 21.1%,而其他的模型大都在 10%-18% 之間徘徊。 

這意味着,當我們要求 AI 「忘掉你以前學的,只看我發給你的這段話」時,它們大概率會搞砸。它們就像那些固執的學生,哪怕老師已經在黑板上寫了「今天 1+1=3」,它還是會大聲喊出「1+1=2」,因為新知識對它而言都 「超綱」 了。 

CL-bench 的研究揭示了幾個導致模型在情境學習中失敗的深層原因,這些原因解釋了為什麼我們在使用 AI 時會感到它有時聰明、有時愚蠢。 

最常見的翻車原因。模型在預訓練里學到的東西太「根深蒂固」了。當模型接收到新的上下文時,它往往無法有效抑制住預訓練數據中那些根深蒂固的模式。 

比如,在 CL-bench 的一個測試案例中,研究人員構建了一個虛構的軟件開發包 Skynet SDK。雖然這只是個虛構的名字,但因為「Skynet(天網)」在 AI 的潛意識(預訓練數據)里太出名了,模型可能會下意識地把《終結者》電影里的設定帶入進來,從而無視説明文檔里枯燥的代碼規則。 

另外,複雜邏輯的推演能力依然是目前技術的瓶頸——這點多少有些令人意外,都 2026 了,AI 處理超長文本不是早已經駕輕就熟嗎?但實際上,雖然模型能吞下幾萬字,它並不一定能從數據海洋里面精準地撈出那一根針。研究發現,當提供的上下文非常長、邏輯非常複雜(比如複雜的邏輯推理鏈條、多輪的交互依賴)時,模型的表現會直線下降。 

如果上下文僅僅是「知識檢索」(比如從文檔里找一個名字),現在的模型還湊合。但一旦涉及到「邏輯推理」,模型的解決率就暴跌。 

為什麼是騰訊來做? 

CL-bench 是姚順雨入主騰訊后,首次署名的研究成果。如果把它放到騰訊龐大的產品矩陣中去審視,就會發現「上下文學習」和這家互聯網巨頭自身業務邏輯之間的關係。

與其他更偏向搜索或通用生產力工具的科技公司不同,騰訊的根基深深紮根於「社交」與「內容」的土壤之中,而這兩個領域對 AI 上下文能力的要求可謂極其苛刻。 

想象一下微信或 QQ 的使用場景。這里產生的數據並非孤立的問答,而是連綿不斷、高度碎片化的對話流——最新的元寶派就是例子。當用户試圖在一個擁有數百條消息的羣聊中讓 AI 總結重點,或者在一段長達數月的私聊記錄中尋找某個約定的細節時,AI 面臨的挑戰正是 CL-bench 所測試的極限:它必須在不依賴外部通用知識的前提下,精準地理解這段封閉對話中特有的語境、人際關係和隱含邏輯。 

如果 AI 無法妥善處理這種高密度的上下文,它就無法真正融入十億用户的社交鏈路,只能作為一個甚至會打斷對話流暢度的累贅存在。 

另外,騰訊在遊戲與企業服務領域的佈局,也決定了它對「情境學習」的渴求。遊戲自不用説,各家都在探索 AI 如何根據即時的操作和遊戲內的實時局勢(即遊戲上下文)做出反應,而不是機械地背誦預訓練好的臺詞。 

在企業微信和騰訊會議的場景中,用户需要的往往是基於特定會議紀要或私有文檔的精準分析。在這些場景下,通用的預訓練知識不僅無效,甚至可能因為「幻覺」而帶來嚴重的誤導。 

「在場景中演滿分的學生,未必能勝任真實世界的工種」 —— 混元團隊意識到了這一點,這也恰恰是對當下 AI 最好的註腳。對於坐擁海量應用場景的騰訊來説,一個能在複雜上下文中保持清醒、邏輯嚴密的模型,遠比一個博學但只會死記硬背的模型,具有更大的商業價值和落地潛力。 

本文來自微信公眾號「APPSO」,作者:發現明日產品的,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。