熱門資訊> 正文
2025-09-29 22:24
這家總部位於中國的人工智能初創公司DeepSeek(DEEPSEEK)周一在Hugging Face上宣佈,已發佈DeepSeek-V3.2-Exp,這是其旗艦型號的實驗版本,也是其邁向下一代架構的墊腳石。
V3.2-Exp在DeepSeek-V3.1-Terminus的基礎上構建,引入了DeepSeek Sparse Attention,這是一種旨在優化長文本場景中的訓練和推理效率的機制。
DeepSeek表示:「這個實驗性版本代表了我們正在進行的對更高效的Transformer架構的研究,特別關注在處理擴展文本序列時提高計算效率。」
DeepSeek還降低了與使用新模型相關的API成本。緩存命中的輸入成本從0.07美元降至0.028美元,緩存未命中的輸入成本從0.56美元降至0.28美元。產出從1.68美元下調至0.42美元。
DeepSeek在人工智能模型市場引起了轟動,因為它聲稱訓練其先進模型的成本僅為美國競爭對手的一小部分。
該公司最近發佈的一項研究顯示,DeepSeek專注於推理的R1型號售價294,000美元,使用了略多於500個Nvidia(NVDA)H800圖形處理器。相比之下,根據各種報道,微軟支持的(MSFT)OpenAI的GPT-4模型使用了10,000多個圖形處理器進行訓練。