繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

劉潤:DeepSeek這把火,為何燒疼了硅谷?

2025-01-30 08:30

(來源:劉潤)

很多人在后台給我留言,要我講講DeepSeek。 這大過年的。 本來想睡個懶覺。 然后看個電影。 然后再睡個懶覺。 然后再看個電影。 什麼也不想寫。 但是但是但是,DeepSeek實在是太火了。

火到什麼程度呢?

美國的一把山林大火,幾個星期燒掉了加州2500億美元。而DeepSeek橫空出世,納斯達克大跌3%,瞬間燒掉了5000多億。什麼概念?如果把這5000多億換成百元美刀,用飛機來運到焚燒廠去燒,需要87架滿載的空客380。

美國人嚇壞了。

可是,DeepSeek這把火,為何燒疼了硅谷?DeepSeek,到底厲害在什麼地方?他被高估了嗎?有人指責DeepSeek「偷竊」,是真的嗎?

今天。我們就來聊聊這件事。從哪里開始呢?就從美國人為什麼這麼怕開始。這種怕,源於心中的一根刺。一根針不能碰,一碰就疼的針。

這根刺的名字叫:斯普特尼克時刻。

斯普特尼克時刻

1957年10月的一天,很多美國人走出家門,驚恐地望向天空。他們聽説,(前)蘇聯人發了一顆「籃球」上天,繞着地球飛行。時速29000公里。他們試着用肉眼,尋找這顆不斷在他們頭頂上繞圈的「籃球」。

這顆「籃球」的名字,就叫斯普特尼克(sputnik)。它當然不是籃球。它是一顆人造衞星。

人類歷史上第一顆人造衞星。

人類歷史上第一顆人造衞星,「居然」不是自己發射的。美國人很難接受。你能想象嗎?這就像連續三年的全年級第一,突然發現清華唯一提前錄取的,不是自己。

斯普特尼克號衞星,就像一根刺一樣,扎痛了那一代美國人。

然后,美國正式成立了NASA(美國航天局),並舉國之力完成了登月。這才拔掉了心頭那根叫「斯普特尼克」的刺。

68年后的今天,DeepSeek讓美國人看到了另一個「斯普特尼克」時刻。

大模型屆的拼多多

你試過DeepSeek了嗎?

趕快去試試。真不錯。推理能力,直逼OpenAI的ChatGPT o1。而且,不用翻牆。不用美國信用卡。也不用擔心,因為不慎被發現是中國用户,而被系統「歧視性」封號。太揚眉吐氣了。

但這都不是最重要的。最重要的是:DeepSeek實在是太太太便宜了。

ChatGPT o1完成一次訓練的成本,據說要上億美金。而DeepSeek,只需要不到600萬美金。

1/20。便宜到不敢相信。

這就像有人指着一臺20萬的新能源車,説1萬賣給你。便宜到難以置信。你忍不住問,這台是不是隻會唱:爸爸的爸爸是爺爺?

美國科技界迅速對DeepSeek做了各種評測。然后,震驚了。這個「大模型屆的拼多多」,推理能力真和ChatGPT o1非常接近。

隨即,英偉達股票大跌17%。原來,訓練一個模型,並不需要像你們説的那麼多GPU啊。DeepSeek,居然做到了所有硅谷科技巨頭都沒做到的事。

那麼,DeepSeek,到底是怎麼做到的呢?

被「逼」的。被「年級第一」的「小院高牆」策略逼的。

小院高牆

2018年,美國首次提出對華科技防禦策略:小院高牆。關係到美國國家安全的「小院」(半導體和微電子,量子信息技術,和人工智能等等),對中國建設「高牆」(出口管制,限制簽證,和審查投資等等)。

隨后,2022年,美國開始禁止英偉達對中國出口高端GPU。這些GPU,對訓練AI大模型至關重要。

為什麼啊?好好做朋友不行嗎?不做朋友,做生意也行啊。公平競爭,共謀發展。有必要這麼藏着掖着防着嗎?

哎。你不理解「年級第一」的心態。

在一個班里,倒數第一和倒數第二,一般都是鐵哥們。但是正數第一和正數第二,基本都是死對頭。

以前我幫你輔導作業,是因為你是后進。你進步我很高興。可是萬萬沒想到,你居然不識好歹,才幫了幾天你就想取代我的「年級第一」了。這怎麼行。橡皮是我的。GPU也是我的。以后再也不借給你了。

這就是「年級第一」的心態。

那怎麼辦呢?就這麼認輸嗎?沒有GPU,怎麼訓練AI模型呢?

創新。

資源無限的時候,不需要創新。真正的創新,都發生在匱乏的時候。

比如:混合專家系統。

混合專家系統

混合專家系統,也就是Mixure of Experts。簡稱MoE。

我們去醫院看病。醫院的50個醫生,每個都是最好的全科醫生。內科、外科、兒科、心血管科、腦科、甚至婦科。什麼都懂,什麼都能治。這當然最好。但這樣的成本實在是太高了。因為每個醫生可能都要30年才能畢業。

這就像大模型。一個模型,有50個博士學位,能回答所有問題。這當然好。但是實在是太燒GPU了。

可是,GPU都在美國的小院里。我沒有。怎麼辦呢?

也許你可以試試,把醫院分成不同的科室。內科的只管內科,外科的只管外科。這樣,「訓練」醫生難度不就降低了嗎?

用50個便宜的專科醫生,取代一個昂貴的全科醫生。然后,再設一個導診台,根據病情,把患者分配給不同的醫生,問題不就解決了嗎?

這就是混合專家系統。

混合專家系統,大大降低了AI的訓練成本。

強化學習

訓練大模型還有一項重要的成本,是人工打標籤。

這張照片,是隻小狗。那張照片,是隻小貓。清楚標記出來,人工智能纔不會學錯。用人工標籤,監督AI的學習過程。這就是「監督學習」(Surpervised Learning)。

「監督學習」,給很多第三世界國家,創造了大量工作崗位。所以有句開玩笑的話:

有多少「人工」,就有多少「智能」。

那這個成本,能不能也省了呢?

孩子學習走路的時候,可沒有用什麼打標籤的照片吧。這個姿勢是正確的,那個姿勢是錯誤的。孩子,請按照片上的姿勢走。從來沒有吧。

那孩子是怎麼走路的?就是隻管走就好了。摔倒了屁股會疼。走好了媽媽會抱。孩子會根據這種懲罰和獎勵的反饋,不斷自動調整姿勢,直到終於在一個瞬間,就突然會走路了。

這就是:強化學習。Reinforcement Learning。簡稱RL。用激勵函數,而不是打標籤的數據,來學習。從而大大降低訓練成本。

MoE+RL。

真不容易。為什麼美國人沒有先做出來?

因為他們不缺GPU啊。很多創新,都是被「逼」出來的。

DeepSeek還有一個獨特之處,那就是:開源。

開源

有一個挺諷刺的事。你已經知道了吧。OpenAI,其實並不Open。

什麼,你還不知道?那聽我和你好好説説。

ChatGPT 2.0之前,OpenAI是開源的。模型的代碼和權重,是對所有人公開的。但自從ChatGPT 3.0開始,OpenAI選擇了閉源。「OpenAI」變爲了「CloseAI」。

其實,這也可以理解。訓練大模型實在是太燒錢了。逐漸大家也開始接受了:想要高質量的模型,就要選擇閉源。

直到,DeepSeek R1出現。並且開源。

可是,就算你的成本很低,只有OpenAI的1/20,也沒必要開源吧?畢竟你也要活下啊?你開源,圖什麼啊?

圖:生態。

我只有200個工程師。就算他們全是北大、清華畢業,也只有200個人。這點人手,根本無法和微軟、谷歌、OpenAI比。

那怎麼辦?團結整個開發者生態。

我把所有的研究成果,模型代碼和權重,都免費公開給全世界。這樣,就會吸引大量開發者,來使用我的模型,測試我的模型,改進我的模型。

代碼很重要。但是生態更重要。

用代碼換取整個生態的幫助,可能纔是對抗巨頭們的唯一方法。

明白了。可是,那你怎麼活下去呢?

別擔心。開源大模型,也能賺錢。

開源也能賺錢

開源大模型,至少有三種賺錢的辦法。

第一種,是「雙代碼模式」。

免費公開的基礎代碼。這對大部分人來説夠用了。但是對於一些大型企業來説,他們希望有的權限管理,分級管理,等等各種「高級能力」,可以收費。

第二種,是「保險費模式」。

是代碼,就會出問題。大公司對服務的穩定性、響應的及時性,要求很高。所以,大公司很可能會購買「保險」服務,確保遇到問題時,會有人會處理。

第三種,是「雲服務模式」。

而對中小企業和個人,可以像用水和用電一樣,直接調用DeepSeek的API,使用DeepSeek的雲端「智能資源」,然后按「度」(百萬token)付費。

不管是開源,開始閉源。只要創造了價值,都能賺到錢。所以,不用為DeepSeek擔心。

也不用為英偉達擔心。

傑文斯悖論

DeepSeek這個「大模型屆的拼多多」橫空出世。英偉達股票當天暴跌17%。投資人擔心大家不再需要那麼多GPU了。

其實,大家不用太擔心。給你講個故事。

1776年,瓦特改良了蒸汽機。瓦特蒸汽機,比老式蒸汽機,節省2/3的煤炭。於是人們歡呼:煤炭的消耗,將從此大大減少。

但實際情況,恰恰相反。英國經濟學家傑文斯發現,蒸汽機的效率提高了10倍的同時,煤炭的消耗量不但沒有下降,反而上升了100倍。

為什麼呢?

因為蒸汽機效率提升后,原來用不起煤炭的人,覺得自己用得起了。於是紛紛辦廠。工廠數量的激增,反而引起煤炭用量的劇烈反彈。

這就是著名的「傑文斯悖論」。

英偉達的顯卡同理。

DeepSeek大大提升了GPU的使用效率。這在短期內,可能會導致GPU的用量下降。但很快,就會有更多人因此加入模型訓練陣營,從而導致顯卡的需求激增。

果然。懵了的納斯達克,第二天就清醒了過來。英偉達股票回漲了8%。

回過神來后,在一片讚歎聲中,也逐漸出現了各種質疑和批評。

比如:蒸餾。

蒸餾

美國白宮顧問David Sacks公開表示,有「實質性證據」證明,中國AI公司DeepSeek「蒸餾」(distill)了OpenAI模型。他把這種「蒸餾」行為,比作「偷竊」。

嗯……打不過,就誣陷嗎?「蒸餾」這個指控,很嚴重啊。

首先解釋一下,什麼是「蒸餾」?

有兩個模型。一個老師模型(teacher model),一個學生模型(student model)。學生不斷向老師提問,並把「問題-答案」記錄下來。然后用這些「問題-答案」的數據,來訓練學生,從而讓學生擁有和老師非常接近的知識和能力。這就叫:蒸餾。

這就是蒸餾啊?可是,學生向老師學習,也沒什麼問題吧?

是的。學習是沒什麼問題。但是,ChatGPT的用户協議里明確寫着,不允許用我的模型,來訓練新的模型,尤其是訓練用來和我競爭的模型。也就是説,禁止蒸餾。用ChatGPT,就要遵守ChatGPT的使用協議。這是誠信問題。

另外,牛頓花了30年創造了萬有引力定律。我花了3天學會了萬有引力定律。雖然結果是,我們都懂了萬有引力定律。但是,我不能用我的3天,去嘲笑牛頓的30年。

所以,David的這個「蒸餾」指控,還是挺重的。

那麼,我親愛的讀者朋友,你相信DeepSeek蒸餾了ChatGPT的模型嗎?

我確實不知道。我希望沒有。因為如果真有,那這篇文章前面所有文字,可能都白寫了。

如果真的沒有,DeepSeek,我希望你能你起訴David。請求法院罰他賠償1美元。加在小紅書上連續道歉30天。

這樣的污衊,太欺負人了。

曼哈頓計劃 2.0

DeepSeek這把火,為何燒疼了硅谷?

用遊戲科學的創始人馮驥的話來説:因為這是一個「國運級」的機會。

為什麼?因為AI不是一項普通的技術。它是一門能改變幾乎所有其他技術的技術。

哪個國家能率先實現通用人工智能(AGI),也許誰就能率先解決材料科學問題(武器更先進),率先解決蛋白質問題(醫療更先進),率先解決可控核聚變問題(能源更先進),以及其他很多問題。

這也是為什麼,美國人把AI稱作曼哈頓計劃 2.0。

上個世紀,美國人發誓,一定要比德國人先研發出原子彈。這項計劃,就叫做作:曼哈頓計劃。現在,他們把一定要比中國人先實現通用人工智能。甚至不惜各種封鎖。

哎。至於嗎。一起發展不好嗎?必須對中國封鎖嗎?

我用這個問題問AI。

中國的DeepSeek給我的回答是:

否。技術競合催生共贏,封鎖反噬創新生態。

説得真好。

而ChatGPT給我的回答是:

否。但出於競爭與安全考量,美國可能選擇部分領域封鎖以維護技術優勢。

嗯。果然是美國的GPT。

*個人觀點,僅供參考。

作者 / 劉潤  編輯 / 二蔓  版面 / 黃

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。