熱門資訊> 正文

DeepSeek推出實驗模型，更有效地處理長文本場景

2025-09-29 22:24

這家總部位於中國的人工智能初創公司DeepSeek（DEEPSEEK）周一在Hugging Face上宣佈，已發佈DeepSeek-V3.2-Exp，這是其旗艦型號的實驗版本，也是其邁向下一代架構的墊腳石。

V3.2-Exp在DeepSeek-V3.1-Terminus的基礎上構建，引入了DeepSeek Sparse Attention，這是一種旨在優化長文本場景中的訓練和推理效率的機制。

DeepSeek表示：「這個實驗性版本代表了我們正在進行的對更高效的Transformer架構的研究，特別關注在處理擴展文本序列時提高計算效率。」

DeepSeek還降低了與使用新模型相關的API成本。緩存命中的輸入成本從0.07美元降至0.028美元，緩存未命中的輸入成本從0.56美元降至0.28美元。產出從1.68美元下調至0.42美元。

DeepSeek在人工智能模型市場引起了轟動，因為它聲稱訓練其先進模型的成本僅為美國競爭對手的一小部分。

該公司最近發佈的一項研究顯示，DeepSeek專注於推理的R1型號售價294，000美元，使用了略多於500個Nvidia（NVDA）H800圖形處理器。相比之下，根據各種報道，微軟支持的（MSFT）OpenAI的GPT-4模型使用了10，000多個圖形處理器進行訓練。

推薦文章

風險及免責提示：以上內容僅代表作者的個人立場和觀點，不代表華盛的任何立場，華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前，應結合自身情況，考慮投資產品的風險。必要時，請諮詢專業投資顧問的意見。華盛不提供任何投資建議，對此亦不做任何承諾和保證。