全自研芯片計算！百度智能雲Qianfan-VL系列模型重磅開源

2025-09-22 18:35

快科技9月22日消息，今日，百度智能雲千帆正式推出全新視覺理解模型——Qianfan-VL，並全面開源。

即日起至10月10日，用户可在百度智能雲千帆平臺免費體驗8B、70B模型。

據介紹，Qianfan-VL系列模型包含3B、8B和70B三個尺寸版本，是面向企業級多模態應用場景，進行了深度優化的視覺理解大模型。

Qianfan-VL不僅具備出色的基礎通用能力，還針對產業落地中的高頻需求，如OCR和教育垂直場景做了專項強化。

據悉，該系列模型基於開源模型進行開發，並在百度自研崑崙芯 P800上完成全流程計算任務，其提供了強大的算力支撐，同時支持單任務5000卡規模的並行計算。

這一結合不僅優化了模型計算的效率，更使得模型在性能表現上達到了新的高度，在通用和垂類任務評測中展現出SOTA水平。

Qianfan-VL模型具備三大特點：

多尺寸模型滿足不同場景需求：提供3B、8B、70B三種規格的模型，讓不同規模的企業和開發者都能找到合適的解決方案。

提供思考推理能力：8B和70B模型支持通過特殊token激活思維鏈能力，覆蓋複雜圖表理解、視覺推理、數學解題等多種場景。

OCR與文檔理解能力增強：主打OCR全場景識別和複雜版面文檔理解兩大特色能力，在多項基準測試中表現優異，為企業級應用提供高精度的視覺理解解決方案。

在通用能力基準測試中，Qianfan-VL系列模型（3B、8B、70B）展現出顯著核心優勢。

從視覺理解到專業領域問答，模型性能隨參數規模增大提升顯著，體現出很好的Scaling趨勢。

此外，Qianfan-VL系列模型（3B、8B、70B）在OCR與文檔理解領域盡顯卓越實力。

一方面，具備OCR全場景識別能力，能精準識別手寫體、數學公式、自然場景文字，還可對卡證票據信息進行結構化提取。

另一方面，複雜版面文檔理解能力突出，可自動分析版面元素，精準解析表格、圖表，實現文檔智能問答與結構化解析。

從基準測試表現看，在OCRBench、各類專業測試中，相較於主流模型，成績優異且隨參數規模提升持續向好。

而8B和70B模型，支持通過特殊token激活思維鏈能力，能覆蓋複雜圖表理解、視覺推理、數學解題等多類場景。

從數學解題基準測試表現看，在MathVista-mini、MathVision等多項測試中，相較於主流模型，成績優異且隨參數規模提升持續向好。

值得注意的是，官方還演示了一些模型應用的案例。

如OCR識別場景：

如數學推理場景：

如文檔理解場景：

除上述場景應用案例外，Qianfan-VL還可應用在圖表分析、視頻理解等場景中，均呈現出卓越的模型效果。

Qianfan-VL系列模型的開源，對百度智能雲千帆來説，更像是「把模型放進真實生產力場景」的第一小步；未來，百度智能雲會不斷推出全新的產業級模型，全方位助力AI技術在各行業落地。