熱門資訊> 正文
2025-08-06 22:47
今日,騰訊正式發佈新一代混元開源大語言模型。英特爾憑藉在人工智能領域的全棧技術佈局,現已在英特爾?酷睿? Ultra平臺上完成針對該模型的第零日(Day 0)部署與性能優化。值得一提的是,依託於OpenVINO?構建的AI軟件平臺的可擴展性,英特爾助力ISV生態夥伴率先實現應用端Day 0 模型適配,大幅加速了新模型的落地進程,彰顯了「硬件+模型+生態」協同的強大爆發力。
混元新模型登場:多維度突破,酷睿Ultra平臺Day 0適配
騰訊混元宣佈開源四款小尺寸模型,參數分別為0.5B、1.8B、4B、7B,消費級顯卡即可運行,適用於筆記本電腦、手機、智能座艙、智能家居等低功耗場景。新開源的4個模型均屬於融合推理模型,具備推理速度快、性價比高的特點,用户可根據使用場景靈活選擇模型思考模式——快思考模式提供簡潔、高效的輸出;而慢思考涉及解決複雜問題,具備更全面的推理步驟。
這些模型已在英特爾酷睿Ultra平臺實現全面適配,其在CPU、GPU、NPU三大AI運算引擎上都展現了卓越的推理性能表現1。以酷睿Ultra 2 代iGPU平臺為例,7B參數量模型在INT4精度下,吞吐量達20.93token/s;0.5B小尺寸模型在FP16精度下吞吐量達68.92token/s。值得一提的是,英特爾對新模型的NPU第零日支持已形成常態化能力,為不同參數量模型匹配精準硬件方案,滿足從個人終端到邊緣設備的多樣化需求。
OpenVINO:新模型快速落地的「關鍵引擎」
作為英特爾推出的開源深度學習工具套件,OpenVINO以「性能優化+跨平臺部署」為核心優勢,可充分釋放英特爾硬件資源潛力,廣泛應用於AI PC、邊緣AI等場景。其核心價值在於能將深度學習模型的推理性能最大化,同時實現跨CPU、GPU、NPU等異構硬件的無縫部署。
目前,OpenVINO已支持超過900個人工智能模型,涵蓋生成式AI領域主流模型結構與算子庫。這樣的模型支持體系,使其能在新模型發佈的Day 0,即完成英特爾硬件平臺的適配部署。此次混元模型的快速落地,正是OpenVINO技術實力的直接體現——通過其優化能力,混元模型在酷睿Ultra平臺的性能得到充分釋放,為用户帶來即發即用的AI體驗。
生態共創:AI技術到應用的「最后一公里」加速
生態合作是英特爾AI戰略的核心支柱,驅動人生作為其長期合作伙伴,專注於互聯網客户端軟件研發及運營,本着「以用户為中心,以技術為根本,以開放為原則」的理念,長期致力於技術研發和技術創新,為用户提供優質的服務。其AIGC助手軟件,實現本地部署,離線使用,支持文字輸入、語音轉譯,將大模型裝進揹包,可隨時隨地與它進行智能對話,還能讓它幫忙解讀文檔,編撰方案。
該應用採用OpenVINO推理框架,藉助其快速適配能力,在混元模型發佈當日即完成應用層適配,成為首批支持新模型的應用之一。
目前,驅動人生AIGC助手、英特爾AIPC應用專區和多家OEM應用商店的AI PC專區均已上線,搭載混元模型的新版本也將在近期推出,用户可第一時間體驗更智能的交互與服務。這種「模型發佈-硬件適配-應用落地」的全鏈條第零日響應,正是英特爾生態協同能力的生動寫照。
AI的發展離不開模型創新與軟硬件生態協同——模型如同燃料,生態則是驅動前進的引擎。英特爾通過硬件平臺、軟件工具與生態網絡的深度協同,實現對新模型的第零日適配,不僅加速了技術到應用的轉化,更推動着整個AI產業的高效創新。未來,英特爾將持續深化與合作伙伴的協同,讓AI創新更快走進千行百業與大眾生活。
快速上手指南
第一步,環境準備
通過以下命令可以搭建基於Python的模型部署環境。
該示例在以下環境中已得到驗證:
硬件環境:
Intel? Core? Ultra 7 258V
iGPU Driver:32.0.101.6972
NPU Driver:32.0.100.4181
Memory: 32GB
操作系統:
Windows 11 24H2 (26100.4061)
OpenVINO版本:
openvino 2025.2.0
openvino-genai 2025.2.0.0
openvino-tokenizers 2025.2.0.0
Transformers版本:
https://github.com/huggingface/transformers@4970b23cedaf745f963779b4eae68da281e8c6ca
第二步,模型下載和轉換
在部署模型之前,我們首先需要將原始的PyTorch模型轉換為OpenVINOTM的IR靜態圖格式,並對其進行壓縮,以實現更輕量化的部署和最佳的性能表現。通過Optimum提供的命令行工具optimum-cli,我們可以一鍵完成模型的格式轉換和權重量化任務:
開發者可以根據模型的輸出結果,調整其中的量化參數,包括:
--model:為模型在HuggingFace上的model id,這里我們也提前下載原始模型,並將model id替換為原始模型的本地路徑,針對國內開發者,推薦使用ModelScope魔搭社區作為原始模型的下載渠道,具體加載方式可以參考ModelScope官方指南:https://www.modelscope.cn/docs/models/download
--weight-format:量化精度,可以選擇fp32,fp16,int8,int4,int4_sym_g128,int4_asym_g128,int4_sym_g64,int4_asym_g64
--group-size:權重里共享量化參數的通道數量
--ratio:int4/int8權重比例,默認為1.0,0.6表示60%的權重以int4表,40%以int8表示
--sym:是否開啟對稱量化
此外我們建議使用以下參數對運行在NPU上的模型進行量化,以達到性能和精度的平衡。
這里的--backup-precision是指混合量化精度中,8bit參數的量化策略。
第三步,模型部署
目前我們推薦是用openvino-genai來部署大語言以及生成式AI任務,它同時支持Python和C++兩種編程語言,安裝容量不到200MB,支持流式輸出以及多種採樣策略。
GenAI API部署示例
其中,'model_dir'為OpenVINOTM IR格式的模型文件夾路徑,'device'為模型部署設備,支持CPU,GPU以及NPU。此外,openvino-genai提供了chat模式的構建方法,通過聲明pipe.start_chat()以及pipe.finish_chat(),多輪聊天中的歷史數據將被以kvcache的形態,在內存中進行管理,從而提升運行效率。
開發者可以通過該該示例的中方法調整chat template,以關閉和開啟thinking模式,具體方式可以參考官方文檔(https://huggingface.co/tencent/Hunyuan-4B-Instruct)。由於目前OpenVINOTM Tokenizer還沒有完全支持Hunyuan-7B-Instruct模型默認的chat template格式,因此我們需要手動替換原始的chat template,對其進行簡化,具體方法如下:
chat模式輸出結果示例:
關於該示例的后續更新,可以關注OpenVINO notebooks倉庫:https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/llm-chatbot
驅動人生應用獲取方式:
驅動人生AIGC助手(https://www.160.com/aigc/index.html)
英特爾AIPC應用專區(intel.cn/aipc)
1.通過使用OpenVINO框架版本2025.2.0在英特爾?酷睿? Ultra 7 258V和英特爾?酷睿? Ultra 9 285H上進行測試獲得了性能數據,計算過程發生在iGPU或NPU上。測試評估了首Token的延迟以及在int4-mixed、int4-mixed-cw-sym和fp16精度設置下1K輸入的平均吞吐量。每項測試在預熱階段后執行三次,並選擇平均值作為報告數據。
性能因使用方式、配置和其他因素而異。請訪問www.Intel.com/PerformanceIndex瞭解更多信息。
性能結果基於測試時的配置狀態,可能未反映所有公開可用的更新內容。請參閱相關文檔以獲取配置詳情。沒有任何產品或組件能夠保證絕對安全。
您的實際成本和結果可能會有所不同。
相關英特爾技術可能需要啟用相關硬件、軟件或激活服務。