熱門資訊> 正文
2025-08-14 12:55
(來源:機器之心)
瘋狂的七月已經落下了帷幕,如果用一個詞來形容國產大模型,「開源」無疑是當之無愧的高頻詞匯。
各大廠商你方唱罷我登場,崑崙萬維、阿里、智譜、月之暗面、騰訊、階躍星辰等眾多玩家們先后開源了數十款大模型。根據 Hugging Face 發佈的中國 AI 社區七月開放成果,短短一個月開源模型總數達到了驚人的 33 款。
進入到八月,國產大模型「上新」的勢頭絲毫不減,重量級成果發佈的熱度繼續升溫。其中,上個月接連開源第二代獎勵模型 Skywork-Reward-V2、多模態理解模型 Skywork-R1V3 以及多模態統一預訓練模型 Skywork UniPic 的崑崙萬維,又官宣了一波技術大放送!
從本周一開始,崑崙萬維正式啟動 Skywork AI 技術發佈周!連續五天,每天都有新模型亮相,從視頻生成模型 SkyReels-A3、世界模型 Matrix-Game 2.0、生圖一體化模型 Skywork UniPic 2.0 到深度研究 Agent 模型等,多模態 AI 的核心賽道幾乎全囊括了,乾貨滿滿。
8 月 14 日,在技術發佈周的第四天,崑崙萬維重磅發佈了最新 Agent 成果,為其在智能體領域的探索與佈局開啟更多可能。不久之前,崑崙萬維才帶來了全球首款 Office 智能體 —— 天工超級智能體(Skywork Super Agents),登頂多個榜單,在文檔、PPT、Excel、網頁、播客等多任務執行中秀了把一站式生成能力。
此次,崑崙萬維將天工超級智能體的核心引擎 Skywork Deep Research Agent 升級到了 V2 版本。新版本不僅將深度調研體驗推升至新高度,還在多模態信息檢索與生成、瀏覽器智能體任務中利用獨立的 Agent 模塊,促成性能、穩定性與智能化水平的均衡躍升。
性能究竟有多強,先上跑分成績。首先在權威搜索評測榜單 BrowseComp 中,Skywork Deep Research 在常規推理模式下正確率已達到 27.8%,超越了 GLM-4.5、StepFun Deep Research、Claude-4-Opus 等國內外大多數主流同類產品;而在啟用自主研發的「並行思考」模式后,準確率更是躍升至 38.7%,一舉刷新行業 SOTA 記錄,將 Grok-4 在內所有競品甩在身后。
此外,在全球最具挑戰性、覆蓋最廣的智能體基準測試集 GAIA 中,Skywork Deep Research Agent 同樣刷新 SOTA 成績,超越所有競品,複雜任務中的硬核表現不言而喻,也為其技術含金量做出有力背書。
趕快來天工超級智能體(Skywork Super Agents)體驗!
全球官網:https://skywork.ai
國內官網:https://tiangong.cn
這位 Agent 新面孔在實操上能不能達到預期呢?一手實測給了我們很大驚喜。
Agent 深度研究的全感知時代
始於多模態信息檢索
去年 12 月,谷歌推出了 Gemini Deep Research 功能,標誌着全球首個 AI 研究助手的誕生。該功能可以自動瀏覽網頁、整合關鍵信息,並生成結構化的研究報告。這意味着,傳統研究員吭哧吭哧干幾天的活兒,它僅需要幾分鍾就能完成。該功能一經發布就迅速引發業界關注,OpenAI、xAI、Perplexity AI 等其他大模型廠商也緊隨其后,紛紛推出自家的 Deep Research。
儘管這些 Deep Research 功能在提取和整理文字信息時有着較高的效率,但它們過於依賴純文本的檢索和分析,往往忽視圖片、圖表等視覺內容。而如今互聯網上超過一半的關鍵信息都以圖文混排的形式呈現,比如財報中的曲線、科研論文里的實驗圖、社交媒體上的對比照、業務方案中的流程圖等,如果這些圖片信息被忽視,研究報告的完整性和準確性將大大降低。
為解決這一痛點,崑崙萬維推出了業界首個「多模態深度調研」Agent 。通過創新性地整合多模態檢索理解和跨模態生成能力,它不僅能夠識別並處理圖片、圖表等信息,還能將圖片中的關鍵信息融入報告中,並生成圖注和綜合性圖表,為研究人員提供更加全面、準確的報告。
比如,我們輸入提示詞:請配合豐富的圖表,詳細揭示 2025 年特斯拉在中國的銷售情況,並分析銷量變化的核心原因。
領到任務后,它首先跳出一個表單讓我們勾選任務需求,包括寫作語言、寫作篇幅、分析維度、圖表類型偏好、核心原因分析角度等。如此一來,我們就能夠根據自己的具體需求,定製報告的內容、深度和呈現方式。
確認完需求,它會生成一個待辦清單,繼而調用各種工具搜索瀏覽網頁、整合信息,尤其是涉及圖片部分,它會自動調用 MCP 工具進行圖片分析以及圖表製作。
在瀏覽了 180 個網頁、使用 54 個信源后,最終輸出一份詳細的特斯拉中國銷量分析報告。
報告中包含豐富的圖表展示,比如特斯拉中國月度銷量趨勢折線圖、主要城市銷量柱狀圖、中國新能源汽車市場份額餅圖等。更重要的是,它把圖片中表達的信息融入到報告文字當中,提供更全面的文字解讀。
爲了防止胡說八道,每個重要數據都標註了來源,鼠標一點即可跳轉。
它還會根據文字內容,在合適的位置插入對應圖片,並自動生成簡潔圖注。對於圖表較多的報告,它甚至會專門拿出一節來對圖表進行輔助説明。
這番實測意味着谷歌 Gemini Deep Research 搞定不了的圖文盲區,被崑崙萬維的 Agent 輕松拿捏。讓 AI 真正具備專業研究人員的感知與表達能力,離不開多模態爬取、長距離多模態信息收集、異步並行 Multi-Agent 多模態理解架構和多模態結果呈現四大核心技術突破:
首先,利用 MM-Crawler 工具進行結構化文本、二進制圖片和元數據的並行爬取,通過「視覺噪聲剪枝」技術以毫秒級剔除低信息密度圖片,平均減少 65% 的冗余圖片流量。
其次,利用大規模「文字 - 圖片 - 推理鏈」合成數據訓練,實現長距離(幾十步數萬字)上下文感知與圖片信息增益判斷能力,將真正需要深入推理的圖片數量壓縮至一半,有效節省計算資源。
第三,利用異步並行 Multi-Agent 架構,將不同任務智能調度給不同的 Agent 並行執行,並結合「多軌執行 + 流水整合」的設計,提升包括文本和圖片在內的多模態檢索與理解效率。
最后,在結果生成階段,支持信息「轉寫 — 插圖 — 重繪」三位一體的自動生成方式,既可將圖片信息融入文字解讀,也可插入原圖並在融合多圖、多模態信息后重繪綜合性圖表,輸出信息完整、視覺友好的深度報告。
目前,該功能已在 skywork.ai 官網上線,人人都可體驗。
突破傳統瀏覽器 Agent 瓶頸
深入挖掘社交平臺內容
接下來,我們再看看 Skywork Deep Research Agent V2 的另一大功能模塊 —— 多模態深度瀏覽器智能體(Skywork Browser Agent)。
在實際應用中,傳統瀏覽器智能體存在諸多瓶頸問題,比如執行效率差、成功率低,特別是在處理文字密集內容時表現迟緩;由於平臺壁壘(如登錄和驗證問題)還可能導致任務中斷;以及在複雜邊緣場景中適應能力較弱,常常出現卡頓、死循環等失效情況。
崑崙萬維此次推出的 Skywork Browser Agent 巧妙化解了這些痛點。藉助深度多模態內容理解能力,不僅能夠高效分析社交媒體上的文本信息,還能精準篩選與提取圖片、視頻以及評論區的情感與觀點,提供更加全面的信息洞察。在網頁瀏覽的全過程中,它都能做到有條不紊、規劃周密,而這一切都依託於自研模型非凡的推理能力。
此外還能自動進行線上社區內容的高效數據分析,將枯燥的調研工作轉化為直觀且易懂的可視化報告。同時支持一鍵式網站部署,將抓取的關鍵圖片與分析內容生成獨立網站,方便展示和分享。針對部分社交平臺登錄牆的難點,配備了智能化接管機制;為每個執行步驟設置了自適應超時控制,有效防止整套工作流阻塞,從而大大提升瀏覽器智能體的執行效率。
舉個例子。最近,喜劇大師陳佩斯帶着自編自導自演的《戲臺》迴歸大熒幕,公映 4 天就斬獲近 2 億元票房。不過,對於這部打磨 13 年的影片,網友給出了兩極分化的評價。
我們讓 Skywork Browser Agent 基於用户反饋,生成一個關於電影《戲臺》上映后網友評價的分析報告網頁。
此處的工作流程與前文所述相似:勾選補充信息、生成待辦清單,然后調用 MCP 工具執行任務。比如旁邊會彈出一個 Skywork 虛擬機來顯示瀏覽器 agent 的操作軌跡:它可以自動打開豆瓣電影首頁,輸入「戲臺」進行搜索,進入電影鏈接詳情頁后收集更完整的信息和用户評論。
搜完信息,它就開始搭建網頁,開發 HTML 頁面框架,並按照各分析維度劃分內容區塊;設計 CSS 樣式,確保頁面美觀易讀;使用 JavaScript 實現數據可視化和交互功能,同時下載並配置相關圖片資源。如果覺得生成網頁不符合預期,我們還可以和瀏覽器 Agent 進行多輪交互,根據當前生成好的網頁進行二次編輯,Skywork Browser Agent 強大的指令跟隨能力可以完美支持這一操作。
可以看到,最后生成的網頁不僅結構清晰,設計精美,且內容涵蓋了電影的基本信息、票房表現、豆瓣和貓眼的評分對比等關鍵數據。網頁內的觀眾評分分佈、情感傾向分析和熱點話題圖雲等可視化圖表,極大提升了信息的可讀性和直觀性。我們還可以通過簡單的點擊與交互,深入瞭解影片的各項數據和網友評論,進一步剖析影片的正負面評價及爭議點。
為測試穩定性,我們還進行了一個有趣的實驗 —— 瀏覽周杰倫的 Instagram,並打造一款粉絲應援網站。結果顯示,製作的網頁不僅功能完整,還具備獨特的視覺風格,效果出色。
如此高效穩定網頁瀏覽能力的實現,要歸功於以下多項自研的關鍵技術方案:
集成強大的多模態推理模型與優化的 DOM(文檔對象模型)解析能力,為 Skywork Browser Agent 提供了卓越性能的核心支撐。
主流平臺動作適配與並行搜索 / 多動作規劃機制,顯著提升執行效率。
內置智能篩選系統以自動過濾低質或涉隱圖片和文字內容。
人機交互場景下支持智能提示與接管,而且能通過加密與前端保護機制保障用户隱私安全。
Skywork Browser Agent,通過模擬人類瀏覽與交互方式,革新傳統的數據採集與分析模式,精準高效地完成智能搜索、多模態信息分析與社區內容洞察,在長周期的 VLA(視覺 - 語言 - 動作)任務中展現巨大的潛力。
不過,這一功能尚處於內測和邀測階段,預計將於下周向全部用户開放。
全棧式演進
構建從數據、算法到多智能體系統的智能基座
從一系列實測看下來,崑崙萬維此次的 Agent 產品在自主性、交互性、任務完成度等方面已經今時不同往日,稱得上是一個「獨立思考、深度執行的智能工作夥伴」。 特別是在信息檢索、整理、總結以及複雜任務的執行中表現出了驚人的效率與準確性,背后依託的是 Skywork Deep Research Agent V2 引入的多項關鍵提升機制,包括高質量數據合成、端到端強化學習、高效並行推理以及多智能體演進系統。
作為 AI 三大核心要素之一,在數據層面下功夫任何時候都是必要的。爲了增強 Agent 模型對複雜及深度信息搜索場景的理解,崑崙萬維自研了一套端到端深度信息問題合成流程,使系統生成高質量搜索查詢數據集成為可能。
首要一點是制定數據質量標準。崑崙萬維在初期設計階段明確了高質量搜索問題以及答案的五大核心標準,包括多樣性、正確性、唯一性、可驗證性和挑戰性,確保每一個生成的查詢都能覆蓋廣泛的主題和難度層次,同時答案也要準確、唯一可靠並可驗證。然后進入到數據準備階段,通過多渠道收集互聯網數據,構建初步的種子池,並利用自動化篩選系統評估、挑選出最具潛力的信息,為后續問題構造提供優質素材。
接下來處理複雜且具有挑戰性的問題,一方面利用深度信息收集技術系統性地從多個信息源中提取線索,將具體信息抽象為高難度的搜索查詢;另一方面採用迭代式增強策略,將簡單搜索轉化為多步推理的複雜問題。過程中引入了層次化推理鏈和信息混淆技術,以進一步提升問題複雜度和模型推理能力。
一番流程跑下來,每個環節的數據質量和任務難度都得到嚴格控制,尤其是覆蓋五大標準的高難度問題體系,為接下來大規模、端到端的強化學習提供了數據基礎。
想要提升 Agent 模型的學習效率和推理能力,需要克服傳統 RLHF 獎勵模型主觀性強和易受攻擊的難題,為此崑崙萬維提出了非對稱驗證驅動的強化學習方法。具體到訓練框架上,採用了 GRPO 算法和動態課程學習機制,確保訓練過程中數據維持在最佳難度區間,避免簡單和過難問題的干擾;同時動態更新數據集並補入新的數據,使模型始終處於有效「學習區」內。
爲了進一步提升驗證精度和獎勵的有效性,崑崙萬維創新性地引入了基於線索的生成式密集獎勵機制,並利用生成式獎勵模型為 Agent 模型提供更細緻的反饋。若輸出最終答案則給予滿額獎勵,若未能輸出最終答案則進一步分析問題構造階段保存的線索以進行過程評估,並在判定當前輸出中正確線索比例的基礎上賦予模型連續、高區分度的部分獎勵。獎勵信號貫穿整個解題過程,提升學習效率和推理能力的目標得以實現。
性能得到保障的同時,效率也必須提升,這時崑崙萬維自研的並行推理框架發揮了用武之地。此前谷歌 DeepMind 在其最新 Gemini 2.5 Deep Think 推理模型中通過生成多個 Agent 來並行處理任務,並摘得 IMO 2025 競賽金牌,有力驗證了並行推理機制在提升複雜任務處理效率方面的有效性。而基於以下三項創新,崑崙萬維在顯著提升推理效率的同時大大節省了計算資源。
一是並行思考模式,在每一步生成多個候選推理路徑並從中篩選最優候選路徑以備后續使用,避免因推理鏈斷裂、前后邏輯衝突導致的卡殼等失效行為。同時通過多節點異步推理架構,有效縮短推理時間並提升計算資源使用效率;二是在多步推理規劃中引入生成式評估方案,對多個候選推理路徑進行打分和篩選,結合錦標賽排序機制確定最優推理軌跡,並利用異步推理機制降低這一過程所帶來的計算負擔和時間開銷;三是在並行推理過程中引入熵自適應剪枝技術,動態調整路徑選擇,減少冗余計算,降低資源開銷。環環相扣,保證系統面對複雜動態任務依然穩定高效。
並行思考模式下,Skywork Deep Research 的正確率隨思考時間延長持續攀升,驗證了其自研系統架構在推理深度與擴展性上的巨大潛力。
在數據、算法、算力優化之外,Skywork Deep Research Agent v2 能力的躍升與多智能體演進系統的持續進化息息相關。隨着 Agent 應用場景日益豐富,MCP(模型上下文協議)外接工具的作用越來越大,不過隨着此類工具數量和複雜度的增加,需要更高效的自動化管理工具。針對此,MCP 工具自動創建技術應用而生,通過對工具定義的標準化管理和實時同步,大幅減少人為錯誤,提升系統響應速度和工具鏈的靈活性。
在這一 MCP Manager Agent 的基礎上,一個將模型能力與工具能力結合起來的協同多智能體框架形成,不僅能高效組織多個 Agent 協作,還通過動態創建 MCP 工具來強化任務應對能力和環境適應能力。下圖整體架構中一一顯示出 了規劃 Agent、深度調研 Agent、瀏覽器使用 Agent、數據分析 Agent 和 MCP Manager Agent。
這一套系統性的升級,無疑讓 Skywork Deep Research Agent V2 具備了強通用性、強適應性和強自主性,從而構築起 Agent 模型強大的智能基座,在實操中釋放出更強的穩定性、泛化性與創造性。
寫在最后
2025 年已經過半,我們明顯感受到的一點是:伴隨 Scaling Laws 逐漸放緩的影響,國內外 AI 玩家們追求單一最強通用大模型的熱度有所降温,就連 OpenAI 迄今最強的旗艦模型 GPT-5 都被吐槽缺乏突破性體驗。相反,成果開源與應用落地成爲了業界普遍關注的焦點。
可以説,AI 行業重心的轉移正在重新定義下一階段的競爭格局。誰能在開源之上更快更好地打造貫通上下游的工具鏈與應用生態,同時率先將 AI 能力轉化為可規模化部署的商業生產力,誰就更能在新一輪 AI 競賽中搶佔戰略高地。
崑崙萬維為期一周的模型發佈,既是其 AI 技術成果的集中亮相,也是其在多模態 AI 領域加速落地、引領行業趨勢的重要信號。
無論是賦能創作者進行高質量圖片與視頻生成、構建虛擬世界智能交互,還是 Agent 驅動的自動化任務執行、音樂創作靈感激發,崑崙萬維從基座模型到多模態交互系統的全棧式佈局又一次展現在大眾面前。這也彰顯出這家 AI 公司堅定踐行其「All in AGI 與 AIGC」發展戰略的決心與魄力,通過打造全方位的產品矩陣,以期在全球 AI 競爭格局中穩固並擴大自身領先優勢。
其中,作為當前加速大模型落地的核心途徑,Agent 的重要性已經在業界達成共識。我們可以期待,此次的深度研究 Agent 勢必會在深度任務執行、多模態協作和跨場景應用中繼續拓寬崑崙萬維大模型的落地邊界,也有望為整個 AI 行業帶來更高效、更智能的解決方案。