繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

DeepSeek的用人觀:學霸、年輕人、禁止賽馬|焦點分析

2025-01-09 09:30

文|周鑫雨

編輯|蘇建勛

被雷軍親自挖到小米的「天才95后少女」、曾任DeepSeek模型訓練員的羅福莉,揭開了DeepSeek人才畫像的冰山一角:年輕、優秀的應屆畢業生。

正是這一羣「高深莫測的奇才」(OpenAI前政策主管Jack Clark評價),僅用600萬美元,訓練出性能超越GPT-4o和Claude 3.5 Sonnet的模型DeepSeek-V3。

DeepSeek創始人梁文峰曾在36氪的採訪中,給出了這一羣員工的大致畫像:「都是一些Top高校的應屆畢業生、沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人。」

但僅僅組建一支天才梯隊,對實現DeepSeek的AGI理想是不夠的。

通過與多位相關人士的訪談,《智能涌現》發現,DeepSeek想要用好這一羣年輕的天才,離不開團隊的管理方式。

當下,隨着團隊規模的飛速擴張,不少AI公司不得不採用更為高效的垂直管理模式。

但自2023年5月成立以來,DeepSeek將團隊一直控制在150人左右的規模,並採用一種淡化職級、極為扁平的文化,去確定研究課題,並調動資源。

而創新,就發生在這一羣未經驗證過的年輕天才,和一家採用非互聯網組織形式的公司中。

百名年輕天才,不賽馬,不帶團隊

聘請具有AI技術經驗的老將出山,是大多AI公司的選人策略。

比如王小川為百川智能,搬來的是20年前的搜狗老班底;微軟出身的姜大昕,在成立階躍星辰之初,招徠的也是微軟亞研院的老同事。而零一萬物的聯合創始人名單,起初更是星光熠熠,包括:

出身微軟亞研院的黃文灝,前谷歌大腦首位研究軟件工程師、前字節跳動AI平臺負責人潘欣,以及前貝殼集團策略算法中心負責人李先剛。

但DeepSeek,偏愛沒有工作履歷的年輕人。

一名曾與DeepSeek有過合作的獵頭告訴《智能涌現》,DeepSeek不要資深的技術人,「工作經驗在3-5年已經是最多的了,工作超8年的基本就pass了」。

比如,DeepSeekMath的其中三名核心作者,朱琪豪、邵智宏、Peiyi Wang,是在博士實習期間完成了相關的研究工作。再比如,V3研究成員代達勱,2024年纔剛從北大獲得博士學位。

代達勱。圖源:網絡

沒有工作履歷,DeepSeek衡量年輕畢業生「優秀」與否的標準,除了院校,還有競賽成績。另有多名DeepSeek的第三方合作機構表示,DeepSeek對競賽成績看得非常重,「基本金獎以下就不要了」。

一名DeepSeek成員曾在網絡上披露自己的履歷:畢業於北大,在三場ACM/ICPC(國際大學生程序設計競賽)比賽均獲金獎。本科期間共發了6篇論文,兩篇共同一作,基本都是頂會。

據《智能涌現》瞭解,2022年,幻方量化就開始為DeepSeek組建AI團隊。2023年5月,當DeepSeek正式成立,團隊已有近百名工程師。

如今,不包括位於杭州的基礎設施團隊,北京團隊的工程師也有百人規模。技術報告的致謝名單顯示,參與DeepSeek V3研究的工程師,已經有139人。

百人規模的團隊,與字節、百度等動輒千人的模型雄兵,在人才規模上顯得捉襟見肘。但在「人才密度」的分量遠超「人員規模」的AI創新領域,不少人對《智能涌現》形容,DeepSeek是一支全員精鋭的團隊。

如何管理、留住這一羣年輕的天才?一方面,是粗暴地砸錢、給卡。

知情人對《智能涌現》表示,DeepSeek薪酬水平對標的是字節研發,「根據人才能拿到的字節offer,再往上加價」。

與此同時,只要梁文峰判斷技術提案有潛力,DeepSeek給人才的算力,「不限」。

另一方面,DeepSeek採取的是相當扁平和「學院派」的管理方式。

上述獵頭表示,DeepSeek每個成員不帶團隊,而是根據具體的目標,分成不同的研究小組。組內成員之間沒有固定分工和上下級關係,「每個人都負責自己最擅長解決的部分,遇到困難就一起討論,或者向其他組的專家討教。」

梁文峰曾在36氪的訪談中將這種組織形式形容為「自下而上」「自然分工」:「每個人有自己獨特的成長經歷,都是自帶想法的,不需要push他……當一個idea顯示出潛力,我們也會自上而下地去調配資源。」

行業內,不少創業者也將「扁平」,視作適用於創新業務的組織模式。「平等溝通對建立一個學習型組織很重要,淡化崗位身份會更鼓勵大家暢所欲言。」王慧文成立AI公司光年之外之初,曾對《智能涌現》表示。

OpenAI聯創Greg Brockman也曾提到,OpenAI的工作崗位沒有研究員和工程師之分,統稱為「Member of Technical Staff」。這意味着,主流意義上的「初級工程師」也能在研究項目中挑大樑。

一個「自然分工」的典型成果,就是讓V3訓練成本大降的關鍵訓練架構,MLA。梁文峰提到,MLA最初來源於一個年輕研究員的個人興趣,「我們為此組了一個team,花了幾個月時間才跑通」。

與此同時,DeepSeek內部不賽馬——據一名接觸過DeepSeek團隊的AI從業者表述,這是爲了杜絕賽馬造成的人力、資源浪費,「也不利於人才的留存和團隊共識的形成,賽馬機制造成的內耗太嚴重了」。

「想要創新,團隊必須擺脫慣性」

2023年,國內AI頂尖人才畫像的幾個標籤——學術大牛、大廠高管、創業老兵——都指向同一個用人標準:這些人才,需要被職級、產品影響力等職場標準驗證過。

但很明顯,2024年以來,AI行業的用人標準,正在產生變化。更多尚未經過職場驗證、剛畢業不久的年輕人,正走到臺前。

Sora其中一位負責人Aditya Ramesh曾在2024年智源大會上表示,OpenAI的招聘策略與其他組織非常不同,「我們更關注那些有高潛力,但可能還沒機會獲得正式學術成績的人」。

同樣,DiT(Sora底層架構)作者謝賽寧也提到,有很多非常成功的研究人員並沒有真正經歷所謂的傳統研究、正式的研究培訓。

謝賽寧和Aditya Ramesh在智源大會上的對談。圖源:智源

類似的招聘觀念,也體現在DeepSeek的選人策略上。加入DeepSeek的年輕人,不少都沒有模型訓練的相關經驗,甚至不是計算機專業出身

一名畢業於物理專業的DeepSeek成員曾公開提到,自己是一次偶然機會自學了計算機,「由於工作太前沿,幾乎沒有什麼參考資料,一切問題都是自己設計方案並實踐解決的」。另有一名DeepSeek運維工程師提到,加入公司前,自己是沒有任何相關經驗的「小白」。

「想要創新,團隊必須要擺脫慣性。」一名AI從業者對《智能涌現》表示,如今大部分國內AI公司,已經陷入了淺顯模仿OpenAI的慣性,算法就選Transformer,訓練就遵從Scaling Law,「跟隨被驗證過的路徑,就能降低失敗的風險。」

但大家往往忽視,在被GPT-3驗證前,Transformer和Scaling Law也被視作是「瘋狂的事」。

「DeepSeek沒有給成員設定硬性的kpi,也沒有商業化的壓力,成員沒有太多模型訓練的經驗,反而能讓他們不會去抄OpenAI的‘標準答案’。」

上述從業者表示,一名DeepSeek的員工曾告訴他,「如今很少有廠商會從調整Transformer去做文章,但DeepSeek對算法架構的反思,是從第一天就開始的。MLA(DeepSeek自研的架構)其他廠商未必做不出來,但是他們不會想要推翻原有的正確答案。」

但他也坦言,DeepSeek的底氣,還是來源於充足的算力和錢,「所有的資源都投到模型訓練一件事上,他們沒有其他業務,也不燒錢做投放,省了不少錢」。

「DeepSeek不招有名的大佬,他們很少有創新的動力。」與DeepSeek曾合作過的一名獵頭對《智能涌現》總結,「曾經的成功者已經成功過了,他們身上有不允許失敗的包袱。創新的事,還是交給新人去做。」

歡迎交流!

歡迎關注!

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。