熱門資訊> 正文
2025-12-02 00:19
總部位於中國的DeepSeek(DEEPSEEK)推出了一對新的人工智能模型DeepSeek-V3.2和DeepSeek-V3.2-Specialale,它們是開源的,在一些基準測試中超過或匹配了OpenAI(OpenAI)GPT-5和谷歌(GOOG)(GOOGL)Gemini 3 Pro的結果。
DeepSeek-V3.2現已在應用程序、Web和API上提供,而V3-2-Speciale目前僅通過API提供。
DeepSeek一月份推出R1模型,在人工智能領域掀起了波瀾。開源模型與OpenAI,Anthropic(ANTHRO)和Meta(META)等公司的模型競爭,儘管據稱是用一小部分計算能力創建的。這引發了一場關於資金充足的美國公司是否能夠保持技術領先地位的爭論。
然而,DeepSeek在一篇關於其最新模型的新技術論文中承認,過去一年,開源專有模型的發展速度比開源模型更快。這促使DeekSeek重新評估如何突破開源大型語言模型的界限。
論文《DeepSeek-V3.2:推動開放大型語言模型的前沿》指出:「通過我們的分析,我們發現了限制開源模型在複雜任務中能力的三個關鍵缺陷。」"
論文稱:「首先,從架構上來説,對普通注意力機制的主要依賴嚴重限制了長序列的效率。」「這種低效率對可擴展部署和有效的后培訓構成了巨大障礙。其次,在資源分配方面,開源模型在訓練后階段計算投資不足,限制了它們在硬任務上的表現。最后,在人工智能代理的背景下,與專有模型相比,開源模型在概括和描述跟蹤能力方面表現出明顯滯后,從而阻礙了它們在實際部署中的有效性。"
爲了解決這些缺陷,DeepSeek表示,其最新型號取得了三項「關鍵技術突破」。這包括DeepSeek稀疏注意力(DSA),這是一種「有效的注意力機制,可以大幅降低計算複雜性,同時在長上下文場景中保留模型性能」。「該公司還推出了可擴展的強化學習框架和大規模代理任務合成管道。
DeepSeek表示:「值得注意的是,我們的高計算變體DeepSeek-V3.2-Specialale超越GPT-5,表現出與Gemini-3.0-Pro相當的推理能力,在2025年國際數學奧林匹克競賽和國際信息學奧林匹克競賽中均獲得金牌。」