繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

DeepSeek測算:算力、性能、成本等

2025-02-05 10:40

SemiAnalysis新出的一篇分析報告,對於DeepSeek的分析,包括中國在成本、真實訓練成本、封閉模型利潤率影響方面的領先地位 ——H100 價格飆升、補貼推理定價、出口管制、多頭潛在注意力機制。

DeepSeek風靡全球

過去一周,DeepSeek成為全球範圍內熱議的唯一話題。目前,DeepSeek的日流量已經遠超Claude、Perplexity,甚至Google的Gemini。

然而,對於AI行業的深度觀察者來説,這並不是什麼「新鮮」新聞。事實上,我們已經討論DeepSeek有好幾個月了。DeepSeek並不是一家公司突然崛起的故事,真正新鮮的,是它如今所引發的狂熱關注。SemiAnalysis 早就指出,DeepSeek擁有極其優秀的人才團隊,但長期以來,美國公眾並未對此給予關注。而當世界終於開始注意到它時,卻陷入了一種與現實不符的極端炒作。

值得注意的是,這一輿論敍事與上個月的情況形成了鮮明對比。上個月,有人宣稱Scaling Laws被DeepSeek打破,我們曾對此做過澄清。而現在,新的論調是「算法改進速度太快」,這又被解讀為對英偉達及其GPU產業的「壞消息」。

如今的觀點認為,DeepSeek的模型如此高效,以至於算力不再是瓶頸,整個市場因此出現了嚴重的算力過剩。然而,這種説法過於誇大。「傑文斯悖論」 其實更接近事實——雖然提升計算效率可能會減少個體需求,但它也往往會創造更多的整體需求。DeepSeek的技術進展已經對市場產生了實際影響,比如英偉達H100和H200 GPU的價格走勢。

DeepSeek與幻方量化

幻方量化 是一家中國的量化對衝基金,早在AI興起之初便開始將其應用於交易算法。他們不僅深知AI在金融領域的潛力,更洞察到了Scaling)的重要性。因此,幻方一直在不斷擴充自己的GPU供應。

早在2021年,在出口管制政策尚未出台之前,他們就已購買了10,000張英偉達A100 GPU芯片進行大規模實驗,這一決策最終帶來了巨大回報。隨着AI技術的持續進步,幻方意識到是時候成立一家獨立的AI實驗室,以更專注的方式推動研究和發展。於是,DeepSeek於2023年5月正式成立,以進一步探索AI能力的極限。

DeepSeek的初期融資完全由幻方量化提供,原因很簡單——當時市場對AI創業公司興趣不大,尤其是缺乏清晰商業模式的企業更難吸引投資。因此,幻方量化選擇自主投資,並與DeepSeek共享資源,包括計算基礎設施和核心人才。

如今的DeepSeek,早已不是什麼「副業」,儘管一些媒體仍然這樣描述。根據我們的估算,即便考慮到美國出口管制因素,他們在GPU方面的投資已超過 5億美元(約35億元人民幣)。

GPU的情況

關於DeepSeek擁有的GPU資源,我們的分析顯示,他們目前大約擁有50,000張英偉達Hopper架構的GPU芯片,但這並不意味着他們擁有50,000張英偉達高端H100 GPU芯片——這一點需要澄清。由於美國對華出口管制,英偉達專門為中國市場生產了一系列受限版本的GPU芯片,如H800、H20。目前,H20是中國AI公司唯一可以合法購買的英偉達高端GPU芯片。

需要注意的是,雖然英偉達H800的計算能力與英偉達H100相當,但其網絡帶寬較低,這可能會影響大規模分佈式訓練的效率。根據我們的估算,DeepSeek大致擁有:10,000張H800 GPU芯片、10,000張H100 GPU芯片以及大量H20 GPU芯片,因為英偉達在過去9個月內已經生產超過100萬張供中國市場使用的GPU芯片,而DeepSeek正在不斷採購英偉達H20。這些GPU被用於量化交易、推理、訓練和前沿研究,並且地理上分佈較為廣泛,與幻方量化共享使用。

我們估計,DeepSeek的總服務器資本支出(CapEx)約為13億美元(約90億元人民幣),其中僅集羣運營成本就高達7.15億美元。與全球AI實驗室和超大規模計算公司(Hyperscalers)類似,DeepSeek不僅擁有專用於訓練的GPU,還必須為不同任務(如研究、實驗、推理)預留算力資源。

相比之下,X.AI(馬斯克的AI公司)非常特殊,因為它將所有GPU都集中在一個地點進行管理,而DeepSeek採用了更分散的方式。

DeepSeek人才戰略——超高薪酬&自主研發

DeepSeek的人才來源完全來自中國本土,它不依賴求職者的學歷背景,而是更加註重實際能力和探索精神。DeepSeek定期在北京大學、浙江大學等頂尖高校舉辦招聘活動,這些高校也是其主要人才來源。

與傳統的科技公司不同,DeepSeek的職位並不固定,員工有很大的靈活性,甚至在招聘廣告中就直接宣傳:加入DeepSeek,你可以隨意使用數萬張GPU,沒有限制。這一點對研究人員和工程師極具吸引力。

DeepSeek的薪資水平也遠超中國其他科技公司。據稱,他們為頂尖研究人員開出了超過130萬美元(約合920萬元人民幣)的年薪,遠高於國內其他AI公司,如Moonshot(月之暗面)等。目前,DeepSeek的團隊規模約為150人,但擴張速度極快。

回顧歷史,一個資金充足、專注度極高的初創公司,往往能夠突破技術極限。DeepSeek不像Google那樣存在繁瑣的內部官僚體系,由於它的資金來源獨立,不受外部投資人的影響,可以迅速推動創新。然而,與Google類似的是,DeepSeek大部分情況下依靠自建數據中心,而不是依賴第三方雲計算提供商。這使他們能夠在硬件和系統層面進行深度優化,並探索全新的架構和方法。

DeepSeek是當前全球最強的「開源權重」AI實驗室

我們認為,DeepSeek已經成為當前全球最強的開源權重(Open Weights)AI實驗室,甚至超過了Meta的Llama團隊、Mistral等競爭對手。

DeepSeek的成功不僅僅依賴於技術突破,更得益於靈活的組織架構、自主的計算基礎設施和極具競爭力的人才策略。它的崛起正在重塑全球AI行業的格局,成為「后ChatGPT時代」最值得關注的力量之一。

DeepSeek的成本與性能

本周,DeepSeek的超低訓練成本和高效能引發了全球範圍的熱議,尤其是關於DeepSeek V3訓練成本僅為600萬美元左右的報道。然而,這種説法並不準確。這種計算方式相當於僅依據一項(且較大)材料成本就推測整個生產費用,而實際上,預訓練成本只是總成本中的一個小部分。

訓練成本的真實情況

我們認為,所謂的「600萬美元訓練成本」遠遠低於DeepSeek實際投入的金額。事實上,我們可以相當確定,DeepSeek自成立以來的硬件投資已超過5億美元,這只是最基本的算力投入。除此之外,在模型研發過程中,還需要大量資金用於測試新架構、調整模型結構、開展消融實驗(Ablation Study)等創新探索。DeepSeek的核心技術之一——多頭潛在注意力(Multi-Head Latent Attention),就是經過數月的研發、龐大的團隊工時和海量GPU計算資源投入才最終落地的。

論文中提到的600萬美元成本,僅僅是預訓練(pre-training)過程中所消耗的GPU計算成本,但模型的完整訓練遠遠不止於此。真正的成本還包括:研究與開發(R&D)——測試各種新架構、優化模型設計;數據收集與清理——訓練數據的獲取、清理、標註和處理;人才成本——高薪聘請頂尖AI研究員和工程師;硬件總擁有成本(TCO)——服務器、電力、冷卻系統、數據中心維護等。

作為對比,Anthropic訓練Claude 3.5 Sonnet的成本就高達數千萬美元,如果訓練成本真的只有這麼一點,那Anthropic就不需要從Google融資數十億美元,更不需要從亞馬遜融資上百億美元了。因為他們不僅需要訓練模型,還需要不斷進行實驗、優化架構、處理數據、支付員工薪資等等。

DeepSeek V3的性能——縮小差距

V3毫無疑問是一款令人印象深刻的模型,但我們需要明確一個關鍵問題——它的優勢是相對於誰?許多人將V3與GPT-4o進行對比,並強調V3在某些方面已經超越了GPT-4o。這確實屬實,但值得注意的是,GPT-4o發佈於2024年5月,而AI技術的發展速度極快,以算法進步的速度來看,2024年5月就相當於「上一個時代」。換句話説,DeepSeek能夠在較少算力的情況下實現與甚至超越GPT-4o的性能,並不令人意外。

AI的演進路徑一直遵循相同的趨勢:推理成本(Inference Cost)不斷下降,計算效率持續提高;相同級別的AI能力,所需計算量大幅減少。

一個典型的例子是,如今的輕量級模型已經可以在筆記本電腦上運行,其性能接近於當年的GPT-3,而GPT-3在訓練和推理時需要超級計算機和多張GPU芯片支持。換句話説,算法改進使得更少的計算資源就能訓練和推理出相同能力的模型,而這種趨勢一再發生。

唯一的不同之處在於,這次取得突破的是中國的一家AI實驗室,因此才引起了全球範圍內的高度關注。但如果從技術角度來看,更小的模型變得更強大,這並不是新鮮事。

在過去的AI發展中,我們反覆見證了一種模式:絕對計算支出不斷增加,但計算效率提升更快,最終帶來更強的AI能力。例如:算法進步的速度約為每年4倍,即每年達到相同能力所需的計算量減少到四分之一;Anthropic CEO Dario甚至認為,這一進步速度可能達到10倍。

以GPT-3為例:過去,GPT-3級別的推理成本相比於剛推出時,已經下降了1200倍;GPT-4的訓練成本下降趨勢與GPT-3類似,儘管處於不同的時間曲線上;算法優化和工程改進,使得訓練和推理的成本下降了10倍,同時模型能力也在大幅提升。

所以,DeepSeek的特別之處在於:他們是首個實現如此極端成本效益的AI實驗室;他們選擇了「開源權重」(Open Weights)策略,但這並非首次,Mistral和Meta的Llama項目此前也做過類似的事情。然而,這一趨勢不會止步於此。到2024年底,我們不應感到驚訝,如果AI訓練成本進一步降低5倍,這完全符合歷史趨勢。

DeepSeek R1的性能是否能與OpenAI o1匹敵

另一方面,DeepSeek R1的表現已經達到了與o1相當的水平,而o1僅在2024年9月才發佈。DeepSeek為何能如此迅速地迎頭趕上?

答案在於推理(reasoning)代表了一種全新的AI範式,它的迭代速度更快,相比以往的範式,其計算成本更低,且有更多「低垂的果實」(即易於取得的技術進步)。在我們的擴展定律(Scaling Laws)報告中,我們已經指出,傳統的AI模型訓練主要依賴於預訓練(pre-training),但這一範式成本越來越高,且難以獲得穩定的性能提升。

而新的AI訓練範式,即基於合成數據(synthetic data generation)和強化學習(RL)進行推理能力提升的后訓練(post-training)方法,能夠在較低成本下更快提升模型能力。這一新方法的門檻更低,優化方式更直接,這使得DeepSeek能夠比以往更快地復現o1的方法。然而,隨着AI實驗室進一步探索如何在這一新範式下進行大規模擴展,未來不同AI模型之間的技術代差可能會逐漸拉大。

值得注意的是,R1的論文並未提及具體的計算量,這絕非偶然。要生成用於后訓練(post-training)的合成數據,需要投入大量計算資源,而強化學習(RL)同樣需要消耗巨量的算力。這並不是在質疑R1的實力——R1的確是一款優秀的模型,能夠如此快速追趕全球最前沿的推理能力,已經足夠令人印象深刻。更重要的是,DeepSeek在資源相對有限的情況下實現了這一突破,這使得它的成就更具意義。

然而,R1在論文中所引用的一些基準測試(Benchmark)也可能存在誤導。將R1與o1直接比較存在一定的困難,因為:R1只公佈了它表現領先的基準測試,但未提及其落后的部分;雖然R1的推理能力與o1相當,但它在許多關鍵指標上並非絕對贏家,甚至在一些方面遜色於o1。

此外,我們還沒有提到o3。根據OpenAI最近公佈的測試數據,o3的能力遠超R1和o1。事實上,o3的性能增長几乎呈現垂直增長(benchmark scaling is vertical),這一趨勢表明,雖然深度學習(deep learning)被認為遇到了瓶頸,但這個瓶頸的性質與人們之前想象的並不相同。

Google的推理模型是否已經趕上DeepSeek R1

儘管DeepSeek R1引發了全球範圍內的狂熱討論,但與此同時,一家市值2.5萬億美元的公司——Google,早在一個月前就推出了一款推理模型(reasoning model),成本更低:Gemini Flash 2.0 Thinking。這款模型已經向外部開放使用,並且即使在API 訪問方式下提供了更長的上下文窗口(context length),其運行成本仍然遠低於R1。

根據已公佈的基準測試(benchmarks),Flash 2.0 Thinking 在多個指標上優於 R1。但需要注意,基準測試並不能完全反映模型的綜合能力——Google僅公佈了三個基準測試,因此仍然存在數據不完整的問題。然而,我們仍然認為Google的模型在許多方面足以媲美DeepSeek R1,但它卻沒有獲得與R1相匹配的市場熱度。這可能有多個原因:Google的市場推廣策略較差,其產品發佈和用户體驗並未達到預期;R1 是一個「出乎意料的中國突破」,而全球AI關注度已經聚焦在DeepSeek上。

儘管如此,這些都無法否定DeepSeek的非凡成就。DeepSeek能夠迅速超越像Meta這樣的科技巨頭,並率先推出推理模型,主要得益於:敏捷的團隊管理,沒有官僚體系的束縛;充足的資金支持,確保技術研發不會受到資金限制;清晰的技術願景,專注於AI領域的關鍵突破。

DeepSeek的技術成就

DeepSeek成功找到了關鍵方法,實現了領先實驗室尚未達成的創新。並且可以預見,DeepSeek的技術成果將迅速被西方AI研究機構模仿和採用。

訓練方法的突破(Pre-training & Post-training)

1. 多Token預測(Multi-Token Prediction,MTP)

DeepSeek V3在訓練過程中廣泛採用了多Token預測(MTP),這一技術在業界尚屬首次大規模應用。

傳統的Transformer結構通常每次只預測一個Token,而MTP允許模型一次預測多個Token,大幅提升訓練效率。在訓練階段使用MTP可以提升模型的收斂速度,而在推理階段,這些額外的注意力機制可以被裁剪掉,從而降低推理成本。

2. FP8訓練

DeepSeek在V3訓練中使用了**FP8(8位浮點數)**來提升計算效率。儘管美國的頂級AI實驗室早已採用FP8訓練,但DeepSeek在V3規模上首次實現了FP8訓練的全面優化,從而提升了計算資源的利用率。

3. 混合專家模型(MoE)

DeepSeek V3採用了混合專家模型(Mixture of Experts, MoE),這是一種新興的AI訓練架構:MoE由多個「專家子模型」組成,每個專家子模型專注於不同的任務。訓練過程中,MoE面臨的最大挑戰是如何高效分配Token,即如何決定哪些Token應該被送到哪個子模型進行處理。DeepSeek通過設計高效的「門控網絡」(gating network),實現了精準的Token分配,確保模型的性能不會受到影響。這種設計使得訓練時只有部分模型參數需要更新,從而顯著提高訓練效率,並降低推理成本。

有觀點認為,MoE的高效性可能會減少AI產業的整體投資,但Anthropic CEO Dario反駁稱,MoE的經濟效益反而會加速AI規模化進程,因為更高效的AI只會促使公司加大投入,以獲得更強的AI能力。

4. 強化學習(Reinforcement Learning, RL)

R1在強化學習(RL)方面的進步主要體現在兩個方面:格式化(Formatting) —— 確保輸出結果邏輯清晰、一致;有用性與安全性(Helpfulness & Harmlessness)——確保模型生成的內容對用户有幫助,並避免產生有害信息。

推理能力的提升,主要是在**合成數據集(synthetic dataset)**上進行微調(fine-tuning)后出現的。這一過程與OpenAI在o1上的訓練策略類似。不過值得注意的是,R1論文未提及具體的計算量,其背后的原因可能是:如果公佈計算量,可能會暴露出DeepSeek真實的GPU資源儲備遠超外界想象。強化學習需要大量計算資源,尤其是在生成合成數據的過程中,這意味着DeepSeek的計算實力可能比他們對外宣傳的要更強大。

5. 訓練數據爭議

DeepSeek在訓練R1時,可能使用了來自OpenAI模型的輸出數據。如果屬實,這可能會在政策層面引發一系列連鎖反應:AI訓練數據的「蒸餾」(distillation)問題,即是否可以用其他AI模型的輸出作為訓練數據;未來可能會實施更嚴格的KYC(瞭解你的客户,Know Your Customer)機制,以防止AI公司利用其他公司的數據來訓練自家模型。

此外,R1論文還展示了一項極具突破性的能力:通過「微調」(fine-tuning),可以將非推理(non-reasoning)模型轉化為推理(reasoning)模型;R1的鏈式思維(CoT, Chain of Thought)輸出數據對外開放,意味着任何人都可以用R1的數據集訓練自己的推理模型,這將極大提升小型模型的推理能力。

多頭潛在注意力(MLA)是降低推理成本的關鍵

MLA(Multi-head Latent Attention)是DeepSeek大幅降低推理成本的關鍵技術之一:MLA能夠減少KV Cache需求約93.3%,相比標準Transformer結構,其推理效率更高;KV Cache是Transformer模型中的關鍵機制,用於存儲上下文信息,減少重複計算。但隨着上下文長度的增加,KV Cache也會急劇增長,從而導致推理開銷飆升;通過MLA優化KV Cache機制,DeepSeek顯著減少了推理過程中所需的硬件資源,從而降低了推理成本。

目前,DeepSeek提供的推理服務可能是以成本價運營的,以此搶佔市場份額。然而,Google Gemini Flash 2.0 Thinking的推理成本仍然更低,並且谷歌顯然不會以成本價提供這項服務。這意味着DeepSeek短期內可能並未盈利。

此外,DeepSeek還在推理端優化了英偉達H20 GPU的使用——H20具有比H100更高的內存和帶寬容量,在推理效率上更具優勢。DeepSeek還與華為建立了合作伙伴關係,但目前在華為Ascend計算平臺上的進展仍然有限。

DeepSeek的低推理成本策略可能會影響整個AI行業的商業模式:目前DeepSeek可能在補貼推理價格,以獲取市場份額;AI服務是否會像雲計算一樣,陷入低價競爭;DeepSeek的崛起,是否會促使中國加大AI領域的扶持力度;美國的出口管制是否會進一步收緊。

無論如何,DeepSeek的技術突破已經改變了全球AI競爭的格局,未來AI產業的發展仍將充滿不確定性。

更廣泛的利潤影響

在利潤率方面,有一個關鍵發現:R1 並非從技術層面削弱了 o1 的進展,而是以更低的價格實現了相當的能力。這在本質上是合理的,現在我們引入一個關於未來定價機制的框架。

提升能力能夠帶來更高的利潤率。這與半導體制造行業的發展極為相似,臺積電率先進入新節點(實現新能力)時,由於創造出了前所未有的產品,從而獲得了顯著的定價權。

其他落后的競爭對手(如三星、英特爾)爲了在性價比上達到平衡,會以低於領先者的價格提供產品。對芯片製造商(在此類比為人工智能實驗室)而言,幸運的是他們可以調整產能。如果在新模型上能夠實現更高的性價比,他們就可以將產能轉移到新模型的生產上。舊型號仍會得到支持,但供應量會減少。這與當前人工智能實驗室的實際情況以及半導體制造行業的規律高度吻合。

能力的商品化與對更強能力的不懈追求

這或許就是能力競爭的未來走向。率先達到新的能力層級,將獲得可觀的定價溢價;而那些迅速跟上的參與者,只能獲得微薄利潤。處於能力層級下游的產品,如果能滿足特定用例的需求,仍會繼續存在。每一代能夠追趕上領先能力的參與者將越來越少。

我們見證的是,R1 達到了領先的能力水平,卻以零利潤率定價。這種巨大的價格差異引發了一個問題:為什麼 OpenAI 的產品如此昂貴?這是因為他們基於最前沿的技術定價,並享受着前沿技術帶來的溢價。

我們認為,未來的發展將比領先的芯片製造動態更快。追逐最新的能力意味着持續的定價權(例如 ChatGPT Pro),而落后的能力則意味着更低的定價,此時利潤主要來源於為令牌服務的基礎設施。

鑑於我們正處於快速的技術周期中,為追求領先的能力,產品更新換代的速度也會加快。只要你能不斷拓展能力,開發出創造價值的新功能,就理應獲得定價權;否則,在開放模型市場中,你很快就會面臨產品同質化的問題。

我們認為,在這種背景下,人們對當前發生的事情存在根本性的誤解。我們所描述的情況類似於超高速發展的芯片製造行業,這是世界上資本密集度最高的行業。全球沒有哪個行業在研發上的投入比芯片製造行業更多,但與之最相似的現實情況卻被認為對支持模型公司的芯片產業不利。

將人工智能令牌與傑文斯悖論相比較,會發現二者有着深刻的歷史相似性。起初,人們並不確定晶體管是否能夠不斷縮小尺寸;而當這一趨勢明確后,整個行業便致力於將互補金屬氧化物半導體(CMOS)技術的尺寸縮小到極致,並在此基礎上構建出各種重要功能。我們目前正處於整合多種思維鏈(CoT)模型和能力的初期階段,就像最初對晶體管進行規模化發展一樣。雖然從技術進步的角度來看,這可能是一個動盪時期,但對英偉達來説卻是有利的。

DeepSeek補貼推理利潤率

實際情況是,市場在尋找一個理由,而他們選擇了這一點。如果DeepSeek願意接受零利潤率甚至負利潤率,那麼他們的產品價格可能會如此之低,但顯然,提供前沿令牌服務的價格彈性點要高得多。考慮到DeepSeek正在進行新一輪融資,他們有動機這樣做。

DeepSeek在推理領域的關鍵切入點上,打破了 OpenAI 的領先利潤率。這種領先地位會持續下去嗎?我們認為不會 —— 畢竟一個開放實驗室展示出了封閉實驗室的能力。儘管這一點至關重要,但我們仍需注意,DeepSeek是一個快速追隨者。

我們確實認為,一個更強大的開放實驗室(DeepSeek目前是其中的佼佼者)對新興雲服務提供商和服務供應商來説是非常有利的。無論是開放模型還是封閉模型,計算資源的集中化仍然很重要,但如果基於計算資源構建的上層服務免費提供產品,那麼計算資源的價值就有可能提升。更多的資金會流向計算資源領域,而非封閉模型供應商,這意味着支出更多地流向了硬件領域。軟件企業也能從中受益匪淺。

H100 價格飆升 —— 傑文斯悖論的體現

我們已經看到了這一理論的早期跡象。自 V3 和 R1 發佈以來,AWS 多個地區的 H100 GPU 價格上漲,H200 也更難獲取。

V3 發佈后,H100 價格大幅上漲,因為 GPU 開始以更高的費率實現貨幣化。更低的成本實現更強的智能意味着更多的需求。這與前幾個月 H100 現貨價格的低迷形成了鮮明對比。

出口管制的影響、DeepSeek與中國政府

從地緣政治的角度來看,DeepSeek與西方實驗室在能力方面的對比,以及出口管制的影響,都值得深入思考。目前已經實施的人工智能擴散管制措施,我們認為不會取消。有消息稱,出口管制因DeepSeek的發展而失敗,但這是對出口管制機制的誤解。最初,H100 被禁止出口,而計算能力相近(但帶寬受限)的 H800 被允許出口;隨后,H800 也被禁止,現在僅允許 H20 出口。我們在《加速器模型》中提到,儘管需求巨大,但英偉達在 1 月份取消了大量 H20 訂單,這可能預示着美國即將出臺新的禁令。

在這些法律的實施過程中存在寬限期,DeepSeek很可能在這段時間內大量囤積所需芯片。需要注意的是,H100 自發布以來就被禁止出口。從這個角度來看,出口管制未能完全限制高性能芯片的供應。出口管制的目的並非完全切斷中國獲取芯片的渠道,而是對整個生態系統進行嚴格限制,意味着限制數十萬甚至數百萬芯片的供應,而不僅僅是數萬個。

然而,我們預計未來 H20 也將被禁止出口,這將進一步限制DeepSeek獲取芯片的能力。

而他們對芯片的需求十分迫切。

DeepSeek的容量限制

DeepSeek難以滿足急劇增長的需求。儘管他們擁有世界上最出色的推理技術之一,但進行架構研發、訓練模型,與為數千萬用户提供可靠服務是截然不同的挑戰。DeepSeek的註冊服務時常關閉,即便開放註冊時,R1 的響應速度也極慢(不過巧妙的用户體驗設計掩蓋了這一問題)。

我們本月看到的模型受之前出口管制的影響,存在一定滯后性。隨着時間推移,DeepSeek深度求索在擴展模型和服務能力方面將面臨越來越大的困難。擴展能力迫在眉睫,中國也深知這一點。

在與DeepSeek的首席執行官兼創始人會面后的第二天,中國銀行宣佈未來 5 年將為人工智能產業鏈提供 1400 億美元(1 萬億元人民幣)的補貼。該補貼的明確目標是助力中國在科技領域實現完全自主,涵蓋基礎研究、產業應用和開發等方面。人工智能與機器人、生物技術和新材料是重點關注領域。此外,補貼還包括計算基礎設施和數據中心建設,以及為第一代技術設備提供保險和風險管理支持。

我們認為,未來出口管制的影響將更加顯著:算法和硬件都將不斷進步,美國的實驗室能夠利用這些創新成果進行擴展,達到中國難以企及的高度。雖然中國可能仍會推出與美國實驗室相媲美的模型,但將繼續處於追趕地位。

我們也認為,從長期來看,DeepSeek有可能不再開源模型,尤其是在中國政府對其工作給予更多關注,並致力於保護算法創新的情況下。

中國民族衞生協會抗衰老專委會立足民族衞生健康領域,紮根抗衰老暨食品醫藥大健康等行業產業,接受中國民族衞生協會的領導,重點就抗衰老暨食品醫藥大健康行業開展信息交流、業務培訓、科普宣傳、書刊編輯、專業展覽、國際合作與交流等。按照協會的部署,專委會將抓好抗衰老暨食品醫藥大健康行業自律與發展,為建設健康中國做好服務。

Disclaimer: The Internet is a resource-sharing platform, we advocate sharing, the content of the article is intended to popularize science, such as involving the content of the work, pictures, copyright, and other issues, please contact us to delete. This article is for learning and communication only, please do not use it for commercial purposes.

(轉自:抗衰老產業聯盟)

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。