熱門資訊> 正文
2025-05-28 13:19
梁文鋒身材瘦削,行事風格內斂,在會議上時常顯得害羞,甚至緊張。這位深度求索公司(DeepSeek)的創始人説話時容易磕磕絆絆,還會陷入長時間的沉默,他的公司最近顛覆了人工智能領域。但新員工很快就會明白,不要把他的沉思當成膽怯。一旦梁文鋒理清討論的細節,他就會針對模型架構、計算成本以及DeepSeek人工智能系統的其他複雜細節,拋出精準且難以回答的問題。
員工們稱梁文鋒為 「老闆」,這是中國企業里對上級表達尊重的常見稱呼。但不同尋常的是,他們的 「老闆」 會給予年輕研究人員甚至實習生很大的權力 ,讓他們承擔大型的實驗項目,經常到他們的辦公桌旁詢問進展,並鼓勵他們探索不同尋常的工程路徑。討論的技術細節越多越好,尤其是當討論能帶來實際性能提升時,梁文鋒會親自在內部通訊渠道Lark上分享這些里程碑式的成果。一位前DeepSeek員工説, 「他是個真正的書呆子。」 和本文采訪的許多人一樣,由於未獲授權公開談論公司,這位員工要求匿名。「有時,我覺得他比他的研究員更瞭解他們的研究。」
今年1月,梁文鋒和他年輕的公司發佈了給人以突破性震撼之感的人工智能模型R1,一舉成為國際舞臺的焦點。在多項常用來評估AI性能的標準化測試中,R1 擊敗了西方主要競爭對手,而DeepSeek卻稱,其基礎模型的構建成本僅為GPT-4預估成本的5%。GPT-4是OpenAI旗下ChatGPT的基礎模型。
這些測試結果觸發了美國股市1萬億美元的拋售狂潮,也引發了關於美國利用出口管制阻礙中國人工智能領域發展的戰略是否有效的質疑。亞馬遜(Amazon)和微軟(Microsoft)競相將DeepSeek的模型添加到其雲服務中,Meta和Mistral AI等競爭對手也是如此。 「基本上一個周末的時間,市場對DeepSeek的興趣就急劇升溫,所以我們迅速採取了行動。」 亞馬遜公司語言模型市場負責人阿圖爾·迪奧(Atul Deo)説。
DeepSeek撥開了美國人觀察中國人工智能行業時的迷霧。過去,中國的人工智能籠罩在神祕之中,讓美國人更容易把它當作被誇大的幽靈而不予理會,但實際情況可能比他們願意承認的更令人畏懼。在這家初創公司崛起之前,許多美國公司和政策制定者都抱有寬慰性的觀點,認為中國仍然遠遠落后於硅谷,自己有時間為最終的勢均力敵做準備,甚至有機會阻止中國趕上來。但現實是,在DeepSeek總部所在地杭州和其他中國高科技中心,一直活躍着被稱為「AI小龍」的創業公司。來自MiniMax和Moonshot AI等本土初創公司的複雜聊天機器人,在中國國內和美國都迅速走紅。阿里巴巴的「千問」(Qwen)系列大型語言模型在谷歌和Anthropic的大語言模型排行榜上一直名列前茅;百度首席執行官李彥宏在4月份稱,得益於其採用自主研發芯片組裝的新型超級計算機,這家搜索巨頭能夠開發出與DeepSeek一樣優秀但價格更低的模型。華為也因其旨在與英偉達(Nvidia)設備競爭的產品而贏得了讚譽。英偉達的圖形處理器(GPU)為美國和歐洲最先進的人工智能模型提供支持。
此前,中國曾對科技行業展開反壟斷調查和數據合規性審查,社交媒體、零工經濟和遊戲應用也遭遇了新的監管。如今,面對外部的干預,中國正在大力發展國內科技產業,向人工智能和半導體領域投入資源,鼓勵中國高技能人才隊伍,並呼籲構建「自主可控、協同運行」的軟硬件生態系統。
具有諷刺意味的是,那些旨在減緩中國AI發展勢頭的地緣政治限制,反而推動了中國近期的進步。 Counterpoint分析師Wei Sun表示,美國和中國在人工智能領域的差距現在以月衡量,而不是以年來衡量。 Sun説,由於英偉達芯片被限制供應,反而催生了中國在人工智能領域的一些創新,「這種動態帶來了一種達爾文式的壓力:只有那些用更少資源做更多事情的人,才能生存下來。」
然而對於中國的創新,美國不少人則一直懷疑其中存在不當行為。美國眾議院一個兩黨委員會在今年4月發佈的一份報告中指控,DeepSeek與中國政府存在「重大」關聯,稱該公司非法竊取了OpenAI的數據,構成對美國國家安全的「嚴重威脅」。Anthropic首席執行官達里奧·阿莫代伊(Dario Amodei)在一篇3400字的博文中呼籲加強美國出口管制,並稱DeepSeek肯定走私了大量英偉達GPU,包括其最先進的H100芯片。(彭博社近期報道稱,美國官員正在調查DeepSeek是否通過新加坡的第三方採購被禁芯片,以繞過出口限制。)
Anthropic首席執行官達里奧·阿莫代伊
中國駐美大使館駁斥了眾議院委員會的指控,稱其「毫無根據」。英偉達則表示,DeepSeek所使用的芯片符合出口規定,更多限制措施可能反而有利於中國的半導體產業。該芯片製造商的一位發言人表示,如果迫使DeepSeek更多依賴中國本土芯片和服務,將「助推華為和其他外國人工智能基礎設施供應商的發展」。
作為這場爭議的核心,DeepSeek至今仍是謎一般的存在。該公司一方面以開源其人工智能技術為榮,另一方面卻對其內部運作或發展意圖守口如瓶。它在公開論文中披露了其研究的極其具體的細節,但卻不願提供有關其人工智能構建的總體成本、當前GPU的構成或數據來源的基本信息。
梁文鋒本人長期以來一直以不愛交際而聞名,以至於中國人工智能領域的一些領軍人物私下稱他為「技術瘋子」,這類詞匯一般用於形容那些有着巨大野心的古怪企業家。過去10個月里,他沒有接受過任何一次媒體採訪,也很少有人知道他的長相,直到最近出席一場政府會議時,其戴着眼鏡、略顯稚氣的面容出現在照片上。梁文鋒和他的同事們沒有迴應記者多次提出的置評請求,只有一位員工的自動回覆稱,該請求正在處理中:「感謝您對DeepSeek的關注和支持!」郵件中寫道。
爲了進一步瞭解該公司的運作方式以及它如何契合了中國更廣泛的人工智能發展目標,《彭博商業周刊》(Bloomberg Businessweek)採訪了梁文鋒的11名前僱員,以及30多位接近中國人工智能行業的分析師、風險投資家和高管。
由於缺乏公開的對外形象,像Anthropic CEO達里奧·阿莫迪(Dario Amodei)和OpenAI CEO薩姆·奧爾特曼(Sam Altman)這樣的批評者在輿論中佔據了上風,他們的指控在美國聽眾中很有共鳴,因為后者本身就傾向於把中國科技視為一種神祕的威脅。不過,即使是對DeepSeek持警惕態度的人,如今也不得不正視其AI技術的強大實力。Perplexity AI公司首席商務官德米特里·舍韋連科(Dmitry Shevelenko)表示,他的公司里沒有任何人曾成功與DeepSeek方面取得聯繫。但即便如此,Perplexity仍然採用了DeepSeek的技術,部署在美國和歐洲的服務器上。該模型被Perplexity命名為「R1 1776」(美國建國年份),舍韋連科稱這是對「自由」的致敬。「我們並不知道DeepSeek的真正動機是什麼,」他説,「它有點像個黑箱。」
——————————
事實上,DeepSeek早就預見到其人工智能技術可能會在海外引發擔憂。在2024年3月英偉達開發者大會上,DeepSeek的深度學習研究員Deli Chen在一場並未引起太多關注的線上演講中提出,大型語言模型應該與價值觀「解耦」,以適應不同社會的文化背景。在一頁邏輯清晰的演示文稿上,Chen展示了一個可以定製倫理標準的DeepSeek原型系統。這個系統允許開發者通過點擊按鈕,自由設定賭博、安樂死、性工作、槍支擁有、大麻、代孕等議題的合法性。「他們只需選擇符合自身需求的選項,就能獲得專門為其價值體系打造的模型服務。」Chen解釋説。
尋找這種高效的解決方案一直是DeepSeek文化的常態。 2000年代中期,梁文鋒和他的朋友們在浙江大學鑽研了各種技術領域——機器學習、信號處理、電子工程等等,爲了尋求刺激(當然,也是爲了賺錢),還在全球金融危機期間開發了股票交易計算機程序。
畢業后,梁文鋒繼續獨自開發量化交易系統,積累了一筆小財富。之后,他與幾位杭州的大學時期的友人聯手,在2015年創立了后來被稱為「幻方量化」的公司。
公司早期的招聘廣告曾自豪地宣稱,他們能吸引來自谷歌和Facebook的頂尖人才,並尋找具有情景喜劇《生活大爆炸》(The Big Bang Theory)主角謝爾頓(Sheldon)那樣「古怪才華」的數學和編程「極客」 。他們承諾提供免費零食、Herman Miller座椅、撲克之夜、以及鼓勵穿T恤和拖鞋的辦公室文化,此外,還有一絲金融科技圈「兄弟文化」的味道,比如提供與「可愛温柔的90后女孩」和「從華爾街迴歸的犀利女神」共事的機會。
與DeepSeek一樣,幻方量化也營造了一種神祕感——其第一條社交媒體帖子將梁文鋒稱為「L先生」——同時致力於某種「我來證明給你看」的透明度。每周五,幻方量化都會在中國超級應用微信上發佈其10只原始基金的業績圖表。直到2016年夏天,該公司才僅向註冊投資者提供每周數據,在此之前,該投資組合的平均年化回報率為35%。
最終,數十億美元資金流入了幻方量化管理的投資組合,其投資和研究團隊的員工人數也增加到100多人。梁文鋒於2019年開始積極招募人工智能部門的人才,旨在挖掘龐大的數據集,以發現被低估的股票、高頻交易的微小价格波動以及特定行業投資者所忽略的宏觀趨勢。到新冠疫情爆發之初,他和他的團隊已經構建了一個由互聯處理器協同運行的高性能計算系統,即所謂的「集羣」。幻方量化表示,爲了打造這個集羣,他們採購了1000塊英偉達2080Ti芯片(遊戲玩家和3D藝術家常用的芯片),以及另外100塊Volta系列GPU。(Volta GPU,又名 V100,是英偉達首款專為 AI 優化的處理器。)幻方量化之前規模較小的計算架構訓練一個新的經濟分析模型需要兩個月的時間,而其新設備只需不到四天就能完成同樣的任務。
這些金融模型令人印象深刻,但規模仍遠小於 OpenAI 等美國公司正在構建的通用模型。梁文鋒力求建造一臺規模更大的超級計算機,該計算機將由英偉達當時新款的 A100 GPU(V100 的升級版)組成。一位參與該項目的幻方量化的前工程師表示,梁文鋒是這個不斷擴展的計算集羣的「最大用户」,估計用於開發模型的80% 的計算機處理能力都分配給了他的用户名。這位前工程師表示,梁文鋒似乎對深度學習非常痴迷,稱其為「他的昂貴愛好」。對於一家量化公司來説,在這樣的AI基礎設施上投入數億美元可能有些過頭,但梁文鋒已經創造了足夠的利潤來承擔這筆費用。 「對於當時的梁文鋒來説,這只是小錢,」這位工程師回憶說,「算力越強、模型越完善、交易收益就越高。」
至少他們是這麼希望的。在2021年12月致股東的一封信中,當時管理着約141億美元資產的幻方量化就一系列令人失望的回報表示道歉。公司將業績下滑歸咎於其人工智能系統,稱其系統雖然做出了明智的選股決策,但在疫情引發的市場波動中,未能精準把握退出時機。即便如此,該公司仍然決定加倍投入人工智能。2022年1月,幻方量化在社交媒體上發佈消息稱,它已經積累了5000塊英偉達A100芯片,每塊通常售價數萬美元。3月,公司宣佈該集羣已擴展至1萬塊芯片。僅僅六個月后,英偉達就警告稱,美國新的限制措施可能會影響此類芯片對華出口。
英偉達CEO黃仁勛曾表示,美國對中國的過度監管只會激勵后者在創新上超越阻礙
目前尚不清楚這些基礎設施最終有多少是用於量化交易,又有多少屬於梁文鋒的昂貴愛好。第二年春天,在OpenAI推出ChatGPT大約五個月后,他將DeepSeek分拆為獨立的研究實驗室。在杭州和北京的獨立辦公室里,金融不再是重點。在一份未署名宣言中,幻方量化誓言要摒棄平庸,解決人工智能革命中最艱鉅的挑戰。其終極目標是通用人工智能(AGI)。
2023年全年,DeepSeek實驗室都在馬不停蹄地開發人工智能代碼助手、通用知識聊天機器人和文本轉3D藝術生成器。梁文鋒從幻方量化抽調工程師,並從微軟北京辦公室以及中國領先的科技公司和大學招募了更多人才。在攻讀博士學位之前,劉波(Bo 「Benjamin」 Liu)在同年9月以學生研究員的身份加入實驗室。他表示,梁文鋒經常把一些在其他地方會分配給高級員工的重要工作交給實習生。 「就拿我來説吧,我剛到公司的時候,沒人在做RLHF基礎設施」——支持「人類反饋強化學習」(RLHF)這一重要技術所需的基礎設施——「所以他就讓我做了,」劉波説,「他會信任你去做沒人做過的事。」(這種信任也為DeepSeek帶來了另一個好處:它給實習生的日薪相當於140美元,每月還有420美元的住房補貼,這在中國屬於優厚待遇,但僅為美國人工智能公司實習生薪酬的三分之一,也只是硅谷全職工程師薪酬的零頭。)
據兩位前DeepSeek研究人員稱,梁文鋒很早就對」稀疏性」技術押下重注。這是一種通過將大語言模型拆解為專業模塊來提高其訓練和運行效率的技術。當用户向最原始的ChatGPT提問時,無論你問的是「 2+2等於幾」還是「如何製作餡餅」,它的整個大語言模型都會被激活,以確定理想的答案。相比之下,稀疏模型會更好地利用資源,因為它會被劃分成「專家模塊」,只有與特定查詢相關的模塊纔會被激活。
稀疏化方法可以大幅節省計算成本,但複雜性極高。如果一個問題沒有被足夠多的「大腦回路」處理,或者被發送到錯誤的「腦區」,答案的質量就會下降。 (例如,負責數學的大腦模塊知道如何在公式中使用π,但不知道餡餅的配方里包含什麼。)梁文鋒從谷歌和法國獨角獸公司Mistral那里看到了這一領域的進展。Mistral於2023年12月發佈了一個稀疏模型,該模型被劃分爲八個專家模塊,每個查詢都會根據上下文激活其中最相關的兩個模塊。他召集團隊設計包含更多專家模塊的模型,而這種技術可能會增加人工智能「幻覺」,並導致人工智能的知識體系碎片化。「這引發了內部的激烈爭論。」這位前DeepSeek員工説。
隨后,DeepSeek接連取得更多突破,每一次都是公開發布,並越來越引起中國同行的關注。2024年末,DeepSeek發佈了V3,這是一個通用人工智能模型,其規模比Meta Platforms Inc.的同類模型(當時是最大的開源大語言模型)大了約65%。但真正引起谷歌、OpenAI和微軟高管注意的,是一篇篇幅較長的V3研究論文,該論文大約是在DeepSeek憑藉其R1推理模型引起廣泛關注的一個月前發表的。文件中出現了一個令人震驚的統計數據:DeepSeek暗示,V3的整體開發成本僅為560萬美元。這筆錢很可能僅指最后階段的訓練——一個將模型先前原型轉化為完整產品的數據優化過程——但許多人將其理解為整個項目的總預算,覺得這個數字低得離譜。相比之下,最先進的前沿模型的累積訓練成本可能高達1億美元甚至更多。Anthropic的阿莫代伊在DeepSeek崛起之前甚至預測,下一代模型的訓練成本將在100億美元到1000億美元之間。
負責大型語言模型排名的熱門人工智能平臺Hugging Face Inc.的研究主管萊安德羅·馮·韋拉(Leandro von Werra) 説,DeepSeek的「架構創新」並非其模型最引人注目之處。他從其研究論文中得到的最大啟示是,DeepSeek肯定開發了高質量的數據——要麼是從網絡上巧妙地清理而來,要麼是通過其他方式提取的——才能讓V3得以實現。「如果沒有非常強大的數據集,模型的性能就會不足,」 馮·韋拉説,「從報告中可以清楚地看出,DeepSeek擁有目前最好的大型語言模型訓練數據集之一。可惜的是,在50頁的報告中,關於數據集的內容只有半頁。」
DeepSeek之所以能快速取得進展,是因為梁文鋒將開源精神視為其核心理念。他認為,隱藏專有技術並對強大的模型收費——包括OpenAI和谷歌在內的美國頂尖實驗室採取的做法——是把短期利益置於長期的成功之上。讓DeepSeek的模型完全向公眾開放,並且基本上免費,是加速其技術普及、吸引初創公司和研究人員在其技術上進行開發的最有效途徑。DeepSeek希望此舉能夠形成產品消費與反饋之間的飛輪效應。正如DeepSeek在近兩年前發佈其首個大語言模型時引用開源操作系統Linux發明者的話所説:「別光説不練,拿出代碼。」(Talk is cheap, show me the code.)
——————————
4月的一個多雲的周日,在繁忙的杭州蕭山國際機場,迎接抵達旅客的是宣傳阿里巴巴、字節跳動和華為人工智能服務的數字廣告牌。在現代化的航站樓內,一個藍色頭發的人形機器人揮手歡迎乘客。航站樓外,一家自動駕駛汽車初創公司正在測試用於在停機坪周圍運輸貨物的小型自動駕駛卡車。儘管DeepSeek備受矚目,但西方人似乎忘了,它只是眾多在中國硅谷崛起的人工智能「小龍」之一。
僅在杭州這座擁有1250萬人口的特大城市,DeepSeek就是被譽為「六小龍」的頂尖科技初創公司之一。在風景秀麗的西湖區,有一家炙手可熱的工作室——遊戲科學(Game Science),這家工作室開發了暢銷動作遊戲《黑神話:悟空》,該遊戲因使用機器學習技術讓計算機角色更加逼真而備受讚譽。不遠處還有兩家機器人領域的頭部企業,以及一家專注於3D空間軟件的獨角獸公司。浙江強腦科技有限公司也在附近,該公司被視為中國版的Neuralink ,源自華裔博士生韓璧丞在哈佛大學孵化的初創項目。目前,該公司位於杭州的附屬實驗室正在開發仿生肢體和腦機接口技術。
強腦科技的一款人工智能驅動義手目前正在杭州另一個新興科技中心——中國人工智能小鎮的展覽中心展出。據一位參加過展會的人士透露,最近幾周,強腦科技的負責人一直在現場講解展示。參觀者常常表示出投資意願,但顯然這些「最強大腦」們似乎並不急於尋求外部資金支持。一位參加過展會的基金經理説,「他們基本上不缺錢。現在‘六小龍’這麼火,大家都在搶着給他們砸錢。」
「六小龍」其實並不「小」。市值3000億美元的阿里巴巴集團的主園區是一處擁有私人湖泊的龐大地產,位於杭州西湖以西約40分鍾車程處。該公司最近承諾在未來三年內投資530億美元建設更多人工智能數據中心,據稱其最新的Qwen3旗艦機型的性能和成本效率可與DeepSeek相媲美。在中國以外,阿里巴巴通常被認為是一家電商公司,但實際上,其擴張速度更快的人工智能和雲計算部門已於2022年被分拆至杭州郊區的一個獨立園區。在阿里巴巴的會議室里,大屏幕上播放着「行業洞察快訊」,每72小時更新一次,詳細介紹DeepSeek和OpenAI等競爭對手的最新成果。甚至連洗手間里也有每周更新的版本,提醒着如廁的人們,人工智能的競賽從未停歇。
今年4月,近年來幾乎銷聲匿跡的阿里巴巴聯合創始人馬雲,再次出現在公司園區,慶祝其雲計算部門成立15周年。據幾位目睹了馬雲講話的人士透露,在難得一見的演講中,他表示,他希望人工智能服務於人類,而不是主宰人類。香港和東京辦公室的員工也觀看了直播。
這提醒人們,像馬雲這樣的科技巨星似乎重新獲得了青睞,梁文鋒這樣的后起之秀也在展露頭角——即便美國科技領袖的光環逐漸褪色。中國正在證明自己能夠克服西方的種種障礙。駐香港的政策諮詢公司Asia Group LLC董事總經理喬治·陳(George Chen)表示,中國頂尖工程師在蘋果、谷歌、微軟和其他領先公司工作后,現在已經開始回國。雖然特朗普政府的敵意是其中一部分原因,但他們也感受到真正的機會可能正在轉向東方。「硅谷現在對中國人才的吸引力沒那麼大了。」陳説。
另一隻中國獨角獸01.A1的創始人李開復的觀點則更進一步。 作為曾在蘋果、谷歌和微軟工作過的資深人士,李開復表示,下一代人才不再像他那樣先進入美國公司,然后再回國創業。 「這些年輕的人工智能工程師大多數都是本土培養的,」他説, 「DeepSeek的成功以及其他新的AI初創公司的成功,正在激勵更多的年輕人才加入中國的AI復興。」
——————————
今天在中國,沒有一家科技公司能像DeepSeek那樣喚起人們心中的自豪感。 4月,27歲的加拿大計算機科學家柯比·馮(Kirby Fung)與家人一起來杭州旅遊,參觀了梁文鋒的母校浙江大學。 馮曾在這里參加過交流項目,他想向他的祖父母和弟弟展示他曾在梁文鋒的學校學習。 「向我在加拿大的朋友解釋 DeepSeek 的創始人跟我上過同一所學校真的很酷。」馮説。 遊客和社交媒體的網紅們也經常來到Deepseek的總部打卡,該總部位於四座大樓組成的綜合體中,俯瞰中國著名的大運河。
遊客們在當地商店尋找梁文鋒的身影,包括DeepSeek大樓內的一個高檔火鍋店,工作人員有時會在這里吃飯。(女服務員不得不告訴遊客,梁文鋒從沒光顧過。)
瞭解梁文鋒的人説,他往返於杭州和DeepSeek的北京辦公室之間。北京辦公室位於本地科技園一座玻璃寫字樓的五樓。 在那里,二十多歲的程序員在可升降辦公桌前埋頭苦干,茶水間里堆滿了能量飲料、康師傅方便麪和辣條。 那里有一塊白板,員工可以在上面寫下希望補充的零食清單。 「我在那里吃了幾個月的午餐和晚餐,結果胖了不少。」一位最近離職的研究員説。
梁文鋒很少接受外部會議的邀請,即使答應了,也可能以全息投影的形式出現。 他拒絕了今年在巴黎舉行的極具影響力的「人工智能行動峰會」的邀請,該峰會吸引了OpenAI的奧特曼、Alphabet Inc.和谷歌的首席執行官桑達爾·皮查伊(Sundar Pichai) 以及多位國家總理和總統出席。
中國在慶祝DeepSeek的崛起,而美國則像面對一種突然出現在水源中的陌生生物一樣,對其進行檢視,試圖判斷它究竟是良性的還是惡性的。批評者指責DeepSeek受中國政府控制,從美國競爭對手那里盜取訓練數據,並可能參與了某種更大的行動,意在破壞硅谷在人工智能領域的主導地位。「DeepSeek不僅威脅到美國公民的隱私,也危及國家安全。」美國國會一個負責調查DeepSeek的委員會發言人説。
而DeepSeek則一直在努力將自己塑造成一個典型的熱門創業公司。它在今年2月的一篇X平臺(前Twitter)帖子中稱自己是「純粹車庫創業能量」的產物。畢竟,它的辦公室和谷歌在同一個北京園區內,附近還有一家漢堡王和兩家Tim Hortons。整個AI行業直到最近才注意到DeepSeek,並不意味着它背后就一定有不可告人的祕密。「AI圈沒能預見到DeepSeek的出現,」風投公司Alpha Intelligence Capital的合夥人阿諾·巴特勒米説,該公司投資了OpenAI和商湯科技,「他們本該預見到的。」
巴特勒米認為,從DeepSeek身上真正能學到的經驗是,中國科技公司是如何把自身所面臨的種種限制轉化為優勢的。「中國有很多聰明的人才,在計算資源有限的情況下做出了許多聰明的創新。」他説。
事實上,在DeepSeek成立的同一個月,即2023年5月,英偉達CEO黃仁勛在接受《彭博商業周刊》採訪時曾表示,美國對中國的過度監管只會激勵它在創新上超越那些試圖阻礙它的人。他強調,將經濟影響力作為國家安全工具雖然有效,但政府干預帶來的意外后果將非常嚴重。「剝奪全球三分之一科技市場的參與權,其后果一定是災難性的,」他在談到限制美國對中國出口技術的風險時説,「他們會在沒有競爭的情況下蓬勃發展。他們會發展壯大,然后把技術出口到歐洲、東南亞。」
「你必須謹慎對待推動競爭的尺度,」黃仁勛接着説,「一旦超過某個臨界點,反應就會變得非常不可預測。那些一無所有的人,往往會以令人意想不到的方式做出迴應。」
DeepSeek的故事中,仍有一個關鍵部分存在爭議:它到底花了多少錢來訓練模型。一份被廣泛引用的報告中,美國研究公司SemiAnalysis估算,幻方量化和DeepSeek可能使用了大約5萬塊英偉達頂級H系列GPU,價值約14億美元,而這些GPU的大多數都沒有公開。SemiAnalysis指出,這些基礎設施主要由符合出口規定的GPU構成。(美國允許英偉達向中國出售一些經過性能限制修改、以符合白宮規定的芯片,例如H20和H800。)但該諮詢公司還稱,DeepSeek獲得了額外1萬塊英偉達的尖端H100芯片,而這種芯片是美國政府禁止向中國出售的。
對此,三名前員工堅決否認,稱DeepSeek的GPU總數不到2萬塊,而且主要是舊款英偉達芯片以及部分受出口管制的產品。「他們在散佈謊言,」正在讀博的劉波説,他指的是SemiAnalysis。該研究公司則表示堅持其報告內容。
但有一點是沒有爭議的:如果能獲得美國科技公司那種規模的計算能力,DeepSeek當然會欣然接受。它似乎也很有信心能比硅谷更高效地使用這些資源。「現實是,大型語言模型研究人員對算力的渴求極大——如果我有幾萬塊H系列GPU,可能也會變得浪費,跑很多嚴格來説並不必要的實驗。」一位前DeepSeek員工説。但獲取更多資源的問題是中國科技人員願意去應對的。「真希望我們中國公司有朝一日也能有5萬塊GPU。」那位離職的研究員説。他后來加入了北京另一家開源AI實驗室。「想看看我們那時候能做到什麼嗎?」編輯/陳佳靖