热门资讯> 正文
2025-09-29 22:24
这家总部位于中国的人工智能初创公司DeepSeek(DEEPSEEK)周一在Hugging Face上宣布,已发布DeepSeek-V3.2-Exp,这是其旗舰型号的实验版本,也是其迈向下一代架构的垫脚石。
V3.2-Exp在DeepSeek-V3.1-Terminus的基础上构建,引入了DeepSeek Sparse Attention,这是一种旨在优化长文本场景中的训练和推理效率的机制。
DeepSeek表示:“这个实验性版本代表了我们正在进行的对更高效的Transformer架构的研究,特别关注在处理扩展文本序列时提高计算效率。”
DeepSeek还降低了与使用新模型相关的API成本。缓存命中的输入成本从0.07美元降至0.028美元,缓存未命中的输入成本从0.56美元降至0.28美元。产出从1.68美元下调至0.42美元。
DeepSeek在人工智能模型市场引起了轰动,因为它声称训练其先进模型的成本仅为美国竞争对手的一小部分。
该公司最近发布的一项研究显示,DeepSeek专注于推理的R1型号售价294,000美元,使用了略多于500个Nvidia(NVDA)H800图形处理器。相比之下,根据各种报道,微软支持的(MSFT)OpenAI的GPT-4模型使用了10,000多个图形处理器进行训练。