热门资讯> 正文
2025-09-30 15:54
(来源:光大证券投研小分队)
DeepSeek升级新模型,国产算力再迎机遇!
根据DeepSeek官方的信息,9月29日公司发布DeepSeek-V3.2-Exp模型。在8月21日发布DeepSeek-V3.1之后,DeepSeek明显加快了大模型升级的速度,两个版本间隔时间仅有约30天。
DeepSeek引入了稀疏注意力机制,可以提升长文本处理效率。同时公司下调了API价格,幅度超过50%。
不仅如此,寒武纪、华为等科技巨头迅速适配DeepSeek新模型,这标志着国产算力产业链实现了高效协同。
关注【光大快评】,紧跟财经热点!
1、DeepSeek-V3.2-Exp模型发布,国产大模型能力又提升
9月29日,DeepSeek正式发布DeepSeek-V3.2-Exp模型,这是一个实验性版本,当前官方APP、网页端等均已更新至最新模型。
DeepSeek-V3.2-Exp模型最大看点是,DeepSeek在V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(DSA,稀疏注意力机制)。
根据DeepSeek同步公开的论文,所谓的稀疏注意力机制,是在混合注意力架构(MLA)基础之上,用稀疏注意力机制来替代密集注意力,实现先筛选再计算,进而可以提升长文本理解能力。DSA引入了组件闪电索引器,可以判断出哪些历史token相对于当前token更加关键,然后选择这些关键token进行计算。这就带来核心注意力计算难度的大幅下降,从而极大提升了长文本的处理效率。
DeepSeek表示,DSA首次实现了细颗粒度稀疏注意力机制,在几乎不影响大模型输出效果的前提下,大幅提升了长文本训练、推理效率。
为了方便用户对比测试,DeepSeek临时保留了DeepSeek-V3.1-Terminus额外的API访问接口,该接口将保留到北京时间2025年10月15日23:59。
在新模型开发过程中,DeepSeek还使用了高级语言Tilelang进行快速原型开发,本次开源的主要算子包括Tilelang、CUDA两种版本。
受益于新模型成本的下降,DeepSeek再次大幅下调API价格,成本将下降超50%。输入成本降幅达到50%-60%,缓存命中时价格为0.2元/百万tokens(下降60%),缓存未命中时价格为2元/百万tokens(下降50%)。输出价格为3元/百万tokens,较之前大幅下降75%。
8月21日,DeepSeek官方发布V3.1模型,并透露出本次升级的三点主要变化:
①混合推理架构:同时支持思考模式、非思考模式;
②更高的思考效率:DeepSeek-V3.1-Think能在更短时间内给出答案;
③更强的Agent能力:通过Post-Training优化,新模型在工具使用与智能体任务中的表现有较大提升。
DeepSeek-V3.1采用了UE8M0 FP8 Scale 的参数精度,也就是使用8位浮点数精度,这可以实现算力效率提升。UE8M0是FP8张量数据的编码格式,Open Compute Project(OCP)开源硬件协作计划提出UE8M0,该计划由Facebook、英特尔等机构领衔。
DeepSeek-V3.1之所以使用该参数精度,就是为了兼顾国产芯片的稳定性,这可以促进国产芯片的发展。
2、国产算力产业链快速崛起
DeepSeek-V3.2-Exp模型发布之后,寒武纪、华为等国产算力巨头快速跟进,同步完成适配工作。
根据寒武纪开发者的信息,9月29日寒武纪已经实现适配DeepSeek-V3.2-Exp模型,并开源大模型推理引擎vLLM-MLU源代码。寒武纪还表示,公司一直重视芯片与算法的联合创新,对DeepSeek系列模型进行了深入的软硬件协同性能优化,达成了业界领先的算力利用率水平。
华为计算官方表示,快速实现了对DeepSeek-V3.2-Exp BF16模型部署,并且针对DSA结构,叠加实现长序列亲和的CP并行策略,兼顾时延和吞吐。
2025年WAIC展示了384个昇腾神经网络处理单元与192个鲲鹏920中央处理器集成的昇腾384超节点真机,场面极为震撼,瞬间吸引了大量的观众。
早在今年5月,鲲鹏昇腾开发者大会2025便推出了昇腾超节点技术,可以实现业内最大规模的384卡高速总线互联,训练性能达到传统节点的三倍。
9月18日-20日,第十届华为全联接大会(HUAWEI CONNECT 2025)在上海隆重举行,华为副董事长兼轮值董事长徐直军表示,未来三年华为将要推出多款昇腾芯片。
按照华为的研发时间表,昇腾950PR将在2026年一季度推出,该芯片将采用华为自研的HBM自研芯片。众所周知,算力芯片对存储芯片要求极高,以往HBM芯片只有三星、SK海力士等极少数厂商可以生产,这同时也制约了算力终端产品的供给。华为在HBM芯片取得突破,未来将极大促进国产算力芯片的发展。
2026年四季度至2028年四季度,华为将先后推出昇腾950DT、昇腾960芯片和昇腾970芯片,这将带来算力的快速跃升。
昇腾950PR/DT微架构将升级为SIMD/SIMT,算力将达到1PFLOPS(FP8)和2PFLOPS(FP4),互联带宽达到2TB/s。在FP8数据格式下,昇腾960、970芯片的算力将达到2PFLOPS(FP8)和4PFLOPS。
在国产算力产业链携手发展的背景下,我国算力产业链规模快速增长。截至今年上半年,我国在用算力中心标准机架达1085万架,智能算力规模达788 EFLOPS,干线400G端口数量大幅增加至14060个,存力总规模超过1680 EB,全国算力中心平均电能利用效率(PUE)降至1.42,算力基础设施规模和水平不断提升。
根据iFinD金融数据终端,中证算力指数成分股包括:中国移动、工业富联、中国电信、海光信息、寒武纪、中际旭创、新易盛、中兴通讯、中科曙光、中国联通、澜起科技、天孚通信等。
(本文首发于2025年9月30日)
李泉(投资顾问执业编号:S0930622070004;基金从业编号:A20211203001155)