热门资讯> 正文
2025-12-02 00:19
总部位于中国的DeepSeek(DEEPSEEK)推出了一对新的人工智能模型DeepSeek-V3.2和DeepSeek-V3.2-Specialale,它们是开源的,在一些基准测试中超过或匹配了OpenAI(OpenAI)GPT-5和谷歌(GOOG)(GOOGL)Gemini 3 Pro的结果。
DeepSeek-V3.2现已在应用程序、Web和API上提供,而V3-2-Speciale目前仅通过API提供。
DeepSeek一月份推出R1模型,在人工智能领域掀起了波澜。开源模型与OpenAI,Anthropic(ANTHRO)和Meta(META)等公司的模型竞争,尽管据称是用一小部分计算能力创建的。这引发了一场关于资金充足的美国公司是否能够保持技术领先地位的争论。
然而,DeepSeek在一篇关于其最新模型的新技术论文中承认,过去一年,开源专有模型的发展速度比开源模型更快。这促使DeekSeek重新评估如何突破开源大型语言模型的界限。
论文《DeepSeek-V3.2:推动开放大型语言模型的前沿》指出:“通过我们的分析,我们发现了限制开源模型在复杂任务中能力的三个关键缺陷。”"
论文称:“首先,从架构上来说,对普通注意力机制的主要依赖严重限制了长序列的效率。”“这种低效率对可扩展部署和有效的后培训构成了巨大障碍。其次,在资源分配方面,开源模型在训练后阶段计算投资不足,限制了它们在硬任务上的表现。最后,在人工智能代理的背景下,与专有模型相比,开源模型在概括和描述跟踪能力方面表现出明显滞后,从而阻碍了它们在实际部署中的有效性。"
为了解决这些缺陷,DeepSeek表示,其最新型号取得了三项“关键技术突破”。这包括DeepSeek稀疏注意力(DSA),这是一种“有效的注意力机制,可以大幅降低计算复杂性,同时在长上下文场景中保留模型性能”。“该公司还推出了可扩展的强化学习框架和大规模代理任务合成管道。
DeepSeek表示:“值得注意的是,我们的高计算变体DeepSeek-V3.2-Specialale超越GPT-5,表现出与Gemini-3.0-Pro相当的推理能力,在2025年国际数学奥林匹克竞赛和国际信息学奥林匹克竞赛中均获得金牌。”