简体
  • 简体中文
  • 繁体中文

热门资讯> 正文

DeepSeek推出实验模型,更有效地处理长文本场景

2025-09-29 22:24

这家总部位于中国的人工智能初创公司DeepSeek(DEEPSEEK)周一在Hugging Face上宣布,已发布DeepSeek-V3.2-Exp,这是其旗舰型号的实验版本,也是其迈向下一代架构的垫脚石。

V3.2-Exp在DeepSeek-V3.1-Terminus的基础上构建,引入了DeepSeek Sparse Attention,这是一种旨在优化长文本场景中的训练和推理效率的机制。

DeepSeek表示:“这个实验性版本代表了我们正在进行的对更高效的Transformer架构的研究,特别关注在处理扩展文本序列时提高计算效率。”

DeepSeek还降低了与使用新模型相关的API成本。缓存命中的输入成本从0.07美元降至0.028美元,缓存未命中的输入成本从0.56美元降至0.28美元。产出从1.68美元下调至0.42美元。

DeepSeek在人工智能模型市场引起了轰动,因为它声称训练其先进模型的成本仅为美国竞争对手的一小部分。

该公司最近发布的一项研究显示,DeepSeek专注于推理的R1型号售价294,000美元,使用了略多于500个Nvidia(NVDA)H800图形处理器。相比之下,根据各种报道,微软支持的(MSFT)OpenAI的GPT-4模型使用了10,000多个图形处理器进行训练。

风险及免责提示:以上内容仅代表作者的个人立场和观点,不代表华盛的任何立场,华盛亦无法证实上述内容的真实性、准确性和原创性。投资者在做出任何投资决定前,应结合自身情况,考虑投资产品的风险。必要时,请咨询专业投资顾问的意见。华盛不提供任何投资建议,对此亦不做任何承诺和保证。