繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

15句話,總結姚順雨第一次肉身亮相

2026-06-05 18:33

在6月5日的騰訊雲AI下半場大會上,騰訊集團高級執行副總裁湯道生,和騰訊首席AI科學家姚順雨做了個對話。

此次談話圍繞騰訊如何理解AI下半場展開:當大模型的方法論逐漸成熟,競爭重點正在從單點模型能力,轉向真實場景、產品反饋、上下文網絡和Agent工程化落地。

湯道生與姚順雨的對話,也透露出騰訊內部,正在用模型與產品Co-Design對內部進行重組。

我們整理了兩人的所有談話,並將其歸納爲了15個核心觀點。

01 關於AI下半場

「下半場」被濫用了,姚順雨加入騰訊的原因是騰訊「有問題」,有真正的AI需要的好問題

姚順雨表示,「AI下半場」這個概念有些被濫用。他認為,過去幾十年AI更重要的是尋找好方法,比如爲了圍棋做AlphaGo,爲了翻譯做特定模型。但在預訓練和后訓練成熟后,大模型變成了一把「萬能的錘子」,可以解決各種問題。於是,真正稀缺的開始變成「好問題」。模型能力具備通用性之后,企業需要判斷應該把它用在哪里,解決什麼問題,產生什麼價值。

這也是姚順雨加入騰訊一個很重要的原因。「騰訊有很多好的問題,有很多很多產品。」姚順雨説,好的產品能夠解決第一個問題,就是做了好的預訓練和后訓練之后,到底要把它應用在什麼樣的場景,它的價值在哪里。

環境很重要,context更重要,競爭壁壘有時來自於有沒有最原始的輸入

姚順雨強調了環境的重要性。沒有好的環境,Agent就沒有辦法去做各種各樣的事情。如果你沒有一個點外賣的tool,那你就沒有辦法去點外賣。

但最重要的是context。姚順雨説,無論企業還是個人,越來越重要的事情是context。因為模型越來越擅長把一個非常複雜的輸入變成一個輸出,很多時候你的競爭壁壘就來自於你有沒有那個最原始的輸入。你知不知道這個人他在干什麼,你知不知道這個企業的各種各樣的信息。這一點,騰訊有非常強的優勢。

在AI下半場最重要的目標是在中國建立長期的、基於AGI的組織

姚順雨個人的目標是,在中國建立一個長期的、基於AGI的組織。他提到,今天的AI主要有三個部分。

首先是foundation的部分,怎麼樣去把預訓練和后訓練這些最基礎的東西做得非常solid。

第二部分是產品,怎麼去把這樣的技術真正為人和社會產生價值。

第三就是frontier,怎麼去探索新的研究範式,探索新的機會。

最重要的是,要構建一個非常均衡的、像三角形一樣的組織。對於做foundation來説,第一最重要的是有充足資源,第二就是需要正確的做事的方式。對於產品來説,有好的產品的sense,有這種做產品的人是至關重要的。第三個,在中國今天所做的前沿探索不夠多,所以姚順雨希望能把frontier exploration的精神能更多地注入到組織中。

騰訊追求模型與產品Co-Design,但姚順雨認為一切的前提依然是模型

談到騰訊內部高頻提到的Co-Design,姚順雨認為,第一前提是模型本身要做得紮實。預訓練是相對product-agnostic的事情,它提供可泛化的foundation,能夠讓各種下游任務持續受益。

后訓練方面,最重要的是設立好正確的eval。姚順雨吐槽,國內可能有一個不太好的傾向,就是比較喜歡刷榜。但更應該關心的是,如何實事求是地基於產品、基於真正的應用去構造更加真實的eval。實用性的價值是大於刷榜價值的。

這一點上,騰訊做了大量工作,跟各種各樣的產品進行了深度的Co-Design。姚順雨説,Co-Design很關鍵的一點是要產生相互的信任,這一點騰訊做了大量工作去取得互信。怎麼把產品的數據用好,怎麼把這種迴流用好,怎麼把eval做好,這里有很多細節。

 真實產品反饋能發現benchmark看不到的問題

姚順雨也不否認benchmark的價值,但相比之下,真實世界的數據至少有三類價值。

第一,發現榜單無法暴露的底線問題。姚順雨説,騰訊想要發一個preview模型,最重要的目的之一,就是希望能獲得真實世界的反饋,修復各種榜單中沒法發現的底線問題。這一點會在正式版上有非常大的改進。

第二,理解真實用户的prompt distribution。因為現實用户的問題往往模糊、短促、多輪追問,而benchmark題目通常更精確、更單輪。比如benchmark上面的題目可能都是非常精確的,有非常長的concrete description,而且一般來説是一個單輪問題。但是在現實場景中,大家問的問題可能都是比較模糊的,可能就一兩句話,然后他會不停追問。這些setup上的difference,就可以啓發怎麼去更好地做這樣的訓練。

第三,產品本身還可能啓發新的評測方向,推動尚未被很好定義的能力領域。姚順雨説,甚至可以在這些產品上獲得一些靈感,去推進現在還沒有的榜單,或者還沒有被很好定義的領域。比如騰訊最近做了很多Context learning的工作,包括元寶的反饋也給了很大的啓發和幫助。

02 關於模型泛化

以模型之名,騰訊的不同產品終於有了點「互相流通」

姚順雨指出,LLM時代與過去AI的根本差異是泛化性。過去做翻譯模型,只需要翻譯數據。做圍棋程序,只需要圍棋數據。但今天即便只做Coding Agent,也需要聊天、搜索、指令遵循、推理等多種能力。

因此,擁有多個產品場景的公司會具備體系化優勢。姚順雨説,和元寶的Co-Design可以使模型產生很強的聊天和搜索能力。但這樣的能力又可以被遷移到ima、WorkBuddy等其他產品。所以這些產品能夠提供不同的數據,而這些數據之間又可以相互擴散、相互遷移,形成一個像網絡一樣的體系。這一點的價值會越來越重要。

此前,騰訊的打法被外界形容為「賽馬」。不同業務做相同方向的產品,彼此競爭,很少有形成合力的感覺,現在似乎以AI之名開始有所改變。

 Hy3的核心變化是重建基礎設施、重做數據,並依賴大量taste-driven的決策

對於Hy3 Preview,姚順雨説「大模型沒有什麼祕密」。要把infrastructure做好,把數據做好,算法部分反而相對簡單。

他提到,混元3主要做了幾方面改變。一是重建了預訓練和強化學習基礎設施。二是對數據做了很大改變,包括定義更真實的問題、豐富data taxonomy、提高數據質量,這是一個永無止境的追求。三是許多關鍵決策沒有清晰公式,需要在招人、模型節奏、資源取捨中不斷做trade-off,本質上是一個很taste-driven的過程。

元寶與混元的合作,最難的部分不是技術,而是信任

姚順雨透露,元寶早期階段,混元曾派出很強的算法骨干,幫助元寶先把DeepSeek的后訓練做好。彼時混元自己的預訓練模型還沒有ready,不少算法同學一開始不理解。

但姚順雨認為,維護元寶這樣的產品和DAU,對后續做模型和長期合作都很重要。所以當時其實很多同學也不理解,然后他需要去很努力地解釋。但現在看起來,這些努力都是pay off。這樣的一個動作,讓產品和模型的同學意識到,模型的同學是真的在為產品着想。這個對於之后的合作,包括混元在元寶上成功的上線,起到了非常重要的作用。

姚順雨説,做模型的目標和產品的目標有很多align的部分,也有很多不align的部分。模型的人希望能力越強越好,但產品的人希望用户的需求滿足得越好。所以天然有很多不align的部分。很重要的一點就是要換位思考的能力。當然有很多技術的部分可以探討,但可能最難的部分其實反而是怎麼樣去建立信任,怎麼樣換位思考。

AI時代做產品的範式變了,從「預製菜」變成開放式服務

湯道生認為,做產品的第一性原理沒有變,最終還是奔着用户到底有什麼需求,怎麼去解決他的痛點,怎麼給用户或者客户創造價值。在不同的時代,甚至不同的行業,做一個產品還是需要能夠給用户帶來價值,他纔會買單,纔會使用。

但是確實,在PC互聯網、移動互聯網時代做產品,跟今天在AI時代做產品,還是有蠻多不一樣的地方。首先從範式的角度來看,在AI時代以前,做產品很多時候想的是通過功能來滿足用户的需求。作為一個產品提供方、服務提供方,要想清楚提供怎樣的能力,讓用户可能通過界面、通過某些菜單去選擇。這有點像預製菜,用户只能在里面點一樣。

但是在AI時代做產品,它這種開放式的服務形態會帶來很不一樣的要求和挑戰。用户通過簡單的交互方式,可能是自然語言,可能是語音。作為產品方,你也不知道用户會問什麼,所以要充分利用模型能力去理解用户的需求。然后,通過今天大模型的推理能力、調用工具的能力,產品給模型提供各種各樣可以使用的工具,來應對這種開放式的需求。

湯道生説,今天AI時代做產品,對能力的要求更全面,也更難了。尤其今年,大部分代碼都由AI生成。工程師可能會花更多時間去做設計、做架構設計,把寫代碼的工作交給AI,然后定期去指導一下、修正一下。測試也要左移,更前置地想清楚,針對各種案例、環境,以及對於開放式答案的一些要求,甚至alignment,怎麼對齊用户所需要的風格。

 姚順雨的博士論文在2019年就預見了今天,但他覺得自己「想的還是不夠大」

姚順雨透露,他重新讀了自己的博士論文,感覺又回到了一個很遠古的時代。他的博士論文的title叫做《Language Agent:from Next Token Prediction to Digital Automation》(語言智能體:從預測下一個Token到數字自動化)。那是2019年,七年前,那是GPT-2的時候,它當時只能做Next Token Prediction,而且它產生的可能一段話還不太連續,或者還有很多毛刺。所以當時人們是很難想象到,它會有一天成為一個改變世界的力量。

當時姚順雨的想象力比較狂野。他覺得GPT是一個非常優美的東西,吐下一個token是一個非常極簡且非常通用的事情。他覺得它有一天潛力不僅僅是在於吐下一個token,而是在於把這個世界上所有的事情全部automate。他當時想的是digital automation,但是現在看起來也有可能是digital and physical automation。

姚順雨的博士期間主要做兩部分。第一,如何建立一個Agent的方法論。如何把一個Next Token Prediction的機器變成一個Agent,變成一個自動化的機器。最重要的一篇工作可能是React。

他還記得22年7月份的時候,某一天晚上,當他第一次把當時是Palm 2的API和自己手寫的一個Wikipedia的API連在一起,然后它第一次可以基於這個網頁回答問題,並且多輪的交互的時候,他當時感覺就像微弱的電燈絲突然亮了的感覺一樣。據他所知,可能這是第一次人類把LLM和真正的互聯網連在一起,並且去做這種多輪的交互。

他當時的感覺這個可能在5年或者10年會改變這個世界。但是可能比想象中還要更快。包括當時第一次提出SWE-bench的時候,他覺得如果這個事情能做到,那很顯然它會帶來巨大的價值。當時可能是幾百億上千億,但現在可能是數萬億,數十萬億,可能想的還是太小了。

第二,怎麼去定義Digital Automation的任務。比如説WebShop是第一個基於互聯網的Web Agent的task。然后包括InterCode和SWE-bench是最早的Coding Agent這樣的任務。現在看起來Agent的基礎最重要的兩個部分,確實是Web的Agent和Coding的Agent。

姚順雨説,他看博士論文的結尾,就是他在2024年的時候寫的future work,第一個是train models for agent,第二個是safety and robust deployment,第三個是scientific discovery,第四個是怎麼樣去help human。他很感慨,説現在很幸運,確實在做當時列的future direction。可能想的還是不夠大,當時已經覺得自己想的夠大了,但可能還是不夠大。

03 關於Agent

Agent與Coding Agent已成為模型公司的基礎能力

姚順雨認為,今天Agent,尤其Coding Agent,有點像預訓練一樣,是每家模型公司都不得不做的基礎能力。Coding Agent之所以本質,是因為當模型能控制file system、擁有container時,它就接近一個complete system。

但他也強調,做好Coding Agent需要遠遠超過coding數據本身,還需要聊天、搜索、推理等綜合能力。因為大模型最重要的點是泛化性。騰訊的做法會更強調體系全面化、線上迴流,以及對新範式的探索。

姚順雨提到,即使可能今天Coding Agent也是最重要的事情,但騰訊還是會強調體系的全面化。他始終認為,真的要把Coding Agent做好,其實需要的遠遠不止Coding Agent的數據。也需要聊天、指令遵循、推理,各種各樣不同的東西。

第二,產品的作用越來越重要。如何利用好線上的迴流,是一個每一個模型廠商都在應對和思考的問題。這里騰訊積累了很多Co-Design的這些經驗會變得非常重要。

第三,還需要更多想象力。無論是技術的演進,還是產品的演進,還是甚至下一個範式的演進,騰訊還是需要做一些探索性的,甚至不確定性的工作。

性價比的核心是performance,一次把簡單任務做對比模型架構更重要

湯道生提到,從產品側來看,大家越來越多有token焦慮的聲音,token成本持續爆發式增長。很多客户,甚至用户,包括身邊同事,也在緊盯積分消耗或者token消耗。怎麼可以讓模型在解決某個問題、完成某一個任務時,token效率最高?

姚順雨認為,現在中國大家討論性價比,可能更多討論的是模型架構。但它其實是一個很複雜的體系。最重要的事情首先是performance。很多人跟他説,用一個更強的模型,有時候比用一個更弱的模型最后更省錢,因為你更快地把這個事情做對了,也省了人的精力。所以最重要的事情是performance。如果你的performance好,其實它就是性價比最關鍵的事情。

尤其今年,很多簡單任務的魯棒性會變得更加重要。如何一次把很多相對簡單的任務做對,這可能是性價比更關鍵的部分,而不僅僅是模型架構。

第二部分是成本。成本本身也是性價比的一部分。第一是「性」,如果性能不好,性價比就很難成立。第二是「價」,也就是成本。成本上,中國其實是領先於世界的,騰訊做了大量工作去優化成本。

成本里,可能最重要的事情是,怎麼用一個更小的模型,把更高價值的任務做好。在這個基礎上,當然架構創新、長文管理、腳手架都有很多需要做的事情。但姚順雨個人看法是,如果能做一個相對較小的模型,同時又能夠比肩大模型的性能,而且在大部分任務上做到很強的robustness,這可能在很多長程的上面提升一兩個點的提升,可能在今天的中國更有價值。

不同場景的Agent需要不同的context,這是騰訊的優勢

湯道生説,騰訊做的Agent,針對不同場景有不同的產品形態。在Agent設計上面,很大程度是發揮好模型能力,當然模型在迭代它能力越強Agent需要做的工作越來越少。騰訊好幾個產品在過去這段時間是隨着模型能力加強,可以把產品,把Agent做的更簡化,更多的給模型提供更多不同的工具,創造更多的skills,來讓模型能夠更高效的去完成任務。

給模型提供更多的所謂記憶,用户過去使用一些習慣,能提取出來的一些用户preference的信息作為上下文。在Coding環境有相關的context給到模型,在Workbuddy里邊辦公協作,做個PPT,可能大家關注的內容或者該給到模型的context也會不一樣。

所以在做不同的Agent,湯道生覺得更重要是瞭解場景下什麼內容,什麼信息,是重要的,比較relevant的,能夠跟模型配合好,讓模型有它需要的信息,同時也發揮它的能力。

AI時代的產品組織要更扁平化,每個工程師都是產品經理

湯道生透露,他前陣子在幫Workbuddy做一個組織發文,看了一下他們那個非常扁平化的組織,跟過去的其他產品組織架構有很大差異。更多小團隊三個人五個人,可能圍繞某一個領域來做攻堅,而且有很多試驗在里面,還要支持Infra做實驗,讓不同的小分隊可以去探索然后再驗證。因為試驗大部分拿不到正向反饋,也要包容團隊去試錯,這種通過大量試驗去提煉出對於用户流程,對於想要的這個結果有正向幫助,這個是今天做Agent,做原生AI產品,這個組織形態要能夠比較好去支撐。

另外,原來可能有很多工程師有很多時間花寫代碼,但是今天毫無疑問他們這些工作可以交給AI了。所以會看到更多角色的融合,大家都是產品經理,都要去了解透徹用户需求,以及設計出想要的產品形態。每一個工程師更像一個有想法的leader,驅動多個Coding Agent,針對想要的產品需求去做研發、開發。同時要參與評測、測試,比較前置,也用好AI能力,把這些質量保證工作,對齊工作要做到前面來。

迴應「騰訊AI慢了」,下半場剛剛開始,AI會是長期且多元的遊戲

對於外界「騰訊慢了」的討論,姚順雨給出兩個判斷。

第一,AI是長期遊戲,而不是短期遊戲。在硅谷大家蔓延很多情緒,説兩年后所有人都要失業,AI要取代所有人的工作,要趕快賺兩年錢退休。但很顯然騰訊的判斷AI是一個長期遊戲,其實AI剛開始,下半場纔剛剛開始。姚順雨不認為ChatGPT和Claude Code會是唯一的super App,他覺得那是一個非常灰暗的世界,肯定會有源源不斷新的機會誕生。可能今天就像是70年代PC剛剛產生的時候,還有很多很多事情需要做。

第二,AI會變得更多元,而不是沿着單一主線前進。因為確實過去幾年大家能看到的是Pre-training、post training,然后Agent,Coding Agent,似乎有一個非常清晰的主線,這個主線是所有人都在做一樣的事情,都在copy,這也是非常灰暗的事情。但到底未來變得更單一還是更多元?姚順雨個人看法會變得更多元,毫無疑問Coding Agent生產力會變得更加重要,但這個世界還有很多空間沒有被填滿,多模態、具身智能,很多很多新的事情都在發生,或者剛剛發生。

所以從這個角度來説,如果認為下半場剛剛開始,可能確實不是完了。過去模型、產品做了很多探索,走很多彎路,姚順雨覺得這是正常的,如果沒有做過一個事情,第一次做肯定有曲折。但可能更重要的事情是能不能誠實面對自己,能不能Be Real,能不能夠去看到feedback然后去改變,能不能夠保持耐心,這個事情是下半場最重要的事情。

湯道生也迴應説,大家對於騰訊經常喜歡挑某一個點來批評,當然騰訊也很歡迎大家給更高的要求。騰訊是一個非常多業態的公司,有很多產品分佈在很多的賽道,同時也有很多的團隊在推進不同的項目、事情。所以毫無疑問,在這樣一個複雜的組織里面有一些地方可能做得快了,有的地方做得慢了,有一些地方可能會做失敗,在探索。所以這些提醒都非常好,確實有一些地方可以做得更好。

但就像姚順雨説的,這是一個長跑,這是一個馬拉松,騰訊還是有非常豐富的場景。就姚順雨一開始提到選擇騰訊,因為AI需要Context,模型需要很多的這些上下文,其實騰訊在過去多年不同產品,在不同賽道的這些積累,其實都是可以針對每一個場景去為模型提供有用的信息,提供這些Context來發揮價值。

在這樣一個長跑,湯道生相信模型會不斷迭代,用户的需求也在不斷變化,也會有新的產品形態出現。比如説今年年初對Agent這一波熱潮也反應比較快。同時也有像WorkBuddy這樣的智能體產品,其實也是幾年前開始做的產品,沿着原來做Coding、CodeBuddy,慢慢看到非程序員也有很強的需求,也能比較快去應對,今天也聽到很多客户對於不同產品怎麼去組合起來有非常高的期待。

本文來自微信公眾號 「字母榜」(ID:wujicaijing),作者:苗正,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。