热门资讯> 正文

DeepSeek推出实验模型，更有效地处理长文本场景

2025-09-29 22:24

ROUNDHILL ACQUIRERS DEEP VALUE ETF(DEEP) 0
THEDIRECTORY.COM(SEEK) 0
声网(API) 0

这家总部位于中国的人工智能初创公司DeepSeek（DEEPSEEK）周一在Hugging Face上宣布，已发布DeepSeek-V3.2-Exp，这是其旗舰型号的实验版本，也是其迈向下一代架构的垫脚石。

V3.2-Exp在DeepSeek-V3.1-Terminus的基础上构建，引入了DeepSeek Sparse Attention，这是一种旨在优化长文本场景中的训练和推理效率的机制。

DeepSeek表示：“这个实验性版本代表了我们正在进行的对更高效的Transformer架构的研究，特别关注在处理扩展文本序列时提高计算效率。”

DeepSeek还降低了与使用新模型相关的API成本。缓存命中的输入成本从0.07美元降至0.028美元，缓存未命中的输入成本从0.56美元降至0.28美元。产出从1.68美元下调至0.42美元。

DeepSeek在人工智能模型市场引起了轰动，因为它声称训练其先进模型的成本仅为美国竞争对手的一小部分。

该公司最近发布的一项研究显示，DeepSeek专注于推理的R1型号售价294，000美元，使用了略多于500个Nvidia（NVDA）H800图形处理器。相比之下，根据各种报道，微软支持的（MSFT）OpenAI的GPT-4模型使用了10，000多个图形处理器进行训练。

推荐文章

风险及免责提示：以上内容仅代表作者的个人立场和观点，不代表华盛的任何立场，华盛亦无法证实上述内容的真实性、准确性和原创性。投资者在做出任何投资决定前，应结合自身情况，考虑投资产品的风险。必要时，请咨询专业投资顾问的意见。华盛不提供任何投资建议，对此亦不做任何承诺和保证。