百度智能雲Qianfan-VL系列模型開源！全尺寸領域增強效果優異，全自研芯片計算

2025-09-23 10:58

今天，百度智能雲千帆正式推出全新視覺理解模型——Qianfan-VL，並全面開源！該系列模型包含3B、8B和70B三個尺寸版本，是面向企業級多模態應用場景，進行了深度優化的視覺理解大模型。即日起至10月10日，用户可在百度智能雲千帆平臺免費體驗8B、70B模型。Qianfan-VL不僅具備出色的基礎通用能力，還針對產業落地中的高頻需求，如OCR和教育垂直場景做了專項強化，使其在實際應用中表現更加卓越。

Qianfan-VL系列模型是由百度智能雲千帆模型研發團隊，基於開源模型進行開發，並在百度自研崑崙芯 P800上完成全流程計算任務。崑崙芯P800提供了強大的算力支撐，確保模型能夠高效處理海量數據與複雜算法，同時支持單任務5000卡規模的並行計算。這一結合不僅優化了模型計算的效率，更使得模型在性能表現上達到了新的高度，在通用和垂類任務評測中展現出SOTA水平。Qianfan-VL模型具備三大特點：

多尺寸模型滿足不同場景需求：提供3B、8B、70B三種規格的模型，讓不同規模的企業和開發者都能找到合適的解決方案。

提供思考推理能力：8B和70B模型支持通過特殊token激活思維鏈能力，覆蓋複雜圖表理解、視覺推理、數學解題等多種場景。

OCR與文檔理解能力增強：主打OCR全場景識別和複雜版面文檔理解兩大特色能力，在多項基準測試中表現優異，為企業級應用提供高精度的視覺理解解決方案。

1、模型性能與效果

（1）通用能力基準測試表現

在通用能力基準測試中，Qianfan-VL 系列模型（3B、8B、70B）展現出顯著核心優勢。從視覺理解到專業領域問答，模型性能隨參數規模增大提升顯著，體現出很好的Scaling趨勢。在 ScienceQA 等專業問答測試中，精準度表現突出；多模態任務如 RefCOCO 等，物體識別與關聯能力優異；同時，在各類通用基準測試里，相較主流模型，整體表現也頗為亮眼，充分彰顯出在視覺理解通用能力上的出色實力，為不同場景下的智能應用提供了有力支撐。

（2）OCR與文檔理解基準測試表現

Qianfan-VL系列模型（3B、8B、70B）在 OCR 與文檔理解領域盡顯卓越實力。一方面，具備OCR全場景識別能力，能精準識別手寫體、數學公式、自然場景文字，還可對卡證票據信息進行結構化提取；另一方面，複雜版面文檔理解能力突出，可自動分析版面元素，精準解析表格、圖表，實現文檔智能問答與結構化解析。從基準測試表現看，在 OCRBench、各類專業測試中，相較於主流模型，成績優異且隨參數規模提升持續向好，為企業級應用提供了高精度的視覺理解解決方案，有力推動文檔智能處理場景的高效落地。

（3）數學解題基準測試表現

Qianfan-VL系列的8B和70B模型，在思考推理能力方面表現卓越。它們支持通過特殊token激活思維鏈能力，能覆蓋複雜圖表理解、視覺推理、數學解題等多類場景。這類任務需結合視覺信息與外部知識進行組合推理，而模型通過融合大量視覺類、文本類推理數據並用於后訓練，從benchmark表現來看，推理計算相關任務效果顯著提升。

在覈心推理應用場景上，複雜圖表理解與推理方面，可從複雜圖表提取關鍵信息，進行數據分析、趨勢預測、關聯推理及統計計算；數學解題與視覺推理領域，能實現幾何推理、公式識別、分步求解與邏輯推斷。從數學解題基準測試表現看，在MathVista-mini、MathVision等多項測試中，相較於主流模型，成績優異且隨參數規模提升持續向好，為複雜推理場景下的應用提供了強力支持。

2、模型架構設計與技術特色

Qianfan-VL通過先進的多模態架構設計，憑藉持續預訓練和三大技術創新，實現了領域增強的通用視覺-語言能力。

整體架構

能力增強訓練方案：創新的四階段訓練策略，在保持通用能力基礎上實現領域能力顯著提升

高精度數據合成管線：構建面向多模態任務的大規模數據合成管線，涵蓋文檔識別、數學解題、圖表理解、表格識別、公式識別、自然場景OCR等核心任務，通過精細化的管線設計和中間過程數據構造，實現高質量訓練數據的規模化生產。

崑崙芯驅動大模型高效計算：基於百度自研崑崙芯P800芯片，構建了業界領先的超大規模（5000卡）分佈式計算系統，通過創新的並行策略和算子優化，顯著提升大模型任務的處理性能與運行效率。

3、模型應用案例

（1）OCR識別場景

（2）數學推理場景

（3）文檔理解場景

除上述場景應用案例外，Qianfan-VL同樣可應用在圖表分析、視頻理解等場景中，均呈現出卓越的模型效果。

Qianfan-VL系列模型的開源，對百度智能雲千帆來説，更像是「把模型放進真實生產力場景」的第一小步；未來，百度智能雲會秉持着對技術的執着追求與對應用場景的深度洞察，不斷推出全新的產業級模型，全方位助力AI技術在各行業落地。

編輯：侯宜均

百度智能雲Qianfan-VL系列模型開源！全尺寸領域增強效果優異，全自研芯片計算

推薦文章

美股機會日報 | 估值8500億美元！傳OpenAI最新融資規模將破千億美元；黃仁勛稱將發佈幾款世界前所未見的新芯片

美股機會日報 | 凌晨3點！美聯儲將公佈1月貨幣政策會議紀要，納指期貨漲近0.5%；13F大曝光！巴菲特連續三季減持蘋果

美股機會日報 | 阿里發佈千問3.5！性能媲美Gemini 3；馬斯克稱Cybercab將於4月開始生產

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意