繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

DeepSeek推出實驗模型,更有效地處理長文本場景

2025-09-29 22:24

這家總部位於中國的人工智能初創公司DeepSeek(DEEPSEEK)周一在Hugging Face上宣佈,已發佈DeepSeek-V3.2-Exp,這是其旗艦型號的實驗版本,也是其邁向下一代架構的墊腳石。

V3.2-Exp在DeepSeek-V3.1-Terminus的基礎上構建,引入了DeepSeek Sparse Attention,這是一種旨在優化長文本場景中的訓練和推理效率的機制。

DeepSeek表示:「這個實驗性版本代表了我們正在進行的對更高效的Transformer架構的研究,特別關注在處理擴展文本序列時提高計算效率。」

DeepSeek還降低了與使用新模型相關的API成本。緩存命中的輸入成本從0.07美元降至0.028美元,緩存未命中的輸入成本從0.56美元降至0.28美元。產出從1.68美元下調至0.42美元。

DeepSeek在人工智能模型市場引起了轟動,因為它聲稱訓練其先進模型的成本僅為美國競爭對手的一小部分。

該公司最近發佈的一項研究顯示,DeepSeek專注於推理的R1型號售價294,000美元,使用了略多於500個Nvidia(NVDA)H800圖形處理器。相比之下,根據各種報道,微軟支持的(MSFT)OpenAI的GPT-4模型使用了10,000多個圖形處理器進行訓練。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。