DeepSeek发布新一代AI模型：推理更强，使用成本降一半

2025-09-30 14:45

　　中国人工智能开发商 DeepSeek 推出了一款实验性大型语言模型（LLM），号称在训练与推理能力上有显著提升，并能以更低的成本运行。

　　总部位于杭州的DeepSeek表示，该模型采用稀疏注意力（sparse attention）技术，使得API（应用程序接口）调用价格可降低一半。API是企业和开发者接入AI模型的主要方式，按使用次数或调用量付费。

　　DeepSeek在开发者社区 Hugging Face 上发布文章称，这款新模型是其“下一代AI产品线的重要进展”。

　　随着国内外竞争日益激烈，中国科技企业正不断升级自研大模型。就在上周，阿里巴巴推出了其迄今规模最大、功能最强的新一代旗舰模型。

　　事实上，谷歌与OpenAI等国际巨头早在2019年就探索过稀疏注意力技术。OpenAI当时指出，对于超大规模输入，完整的注意力矩阵计算成本过高，而“稀疏模式”可通过只关注部分关键输入，大幅提高效率。

　　DeepSeek在随新模型发布的论文中介绍称，该模型采用了 “闪电索引器（lightning indexer）” 与 “精细化的token选择机制”，确保注意力计算仅应用于最相关的token。

　　值得注意的是，华为云已在周一晚间发文确认，已“快速完成”对 DeepSeek-V3.2-Exp 模型的适配工作。

　　目前，DeepSeek的V3.1版本与阿里巴巴的通义千问Qwen3系列，在人工智能分析平台的全球LLM排名中位列中国前两名，仅次于OpenAI、xAI与Anthropic等国际厂商。