術業有專攻——AI系統主控CPU英特爾至強6新品處理器淺析

2025-06-20 11:35

　　一、至強6與NVIDIA GPU協同的硬件基礎

　　在AI異構計算架構中，英特爾至強6處理器作為主控CPU可以與NVIDIA最新GPU很好地協同。根據英偉達官網信息，目前其DGX B300系統選擇至強6776P作為唯一主控CPU，採用雙路配置，通過UPI總線實現CPU間互連。這8個GPU通過NVLink高速互連，是性能比較高端的DGX，為訓練等應用而設計。

　　作為主控CPU，它和GPU協同工作，而這個系統的性能受到諸多因素的影響，這里列出的是最主要的因素，包括I/O、核心性能、內存(包括帶寬和容量)、CPU上的預處理或卸載(offload)能力、整體CPU系統的RAS，以及各種硬件的外形設計等。這些都會影響整個AI系統的端到端性能，因此AI系統通常比較複雜。

　　這一設計的性能提升要點在於：

　　1.業界領先的I/O通道和內存能力

　　AP平臺的雙路至強6最多可以提供192條PCIe 5.0通道，也就是可以每路提供96條通道，相比上一代提升20%，內存通道也可以高達12個。直接匹配多GPU的高速接入需求，避免因通道不足導致的帶寬瓶頸。

　　在SP平臺上，英特爾還提供了一個差異化的產品，就是在單個CPU插槽上提供了更豐富的I/O資源(Rich I/O one socket)，總共有136根的PCIe通道，持單插槽連接多塊加速卡與存儲設備，適用於邊緣端「預處理+推理」一體化場景。同時，其高帶寬內存可容納更大模型參數，提升訓練效率。在推理場景中，靈活的核心配置確保資源高效利用，滿足多樣化需求。

　　2.核心性能優化

　　至強6區別於上一代產品的關鍵技術突破是Priority Core Turbo(PCT)，其技術本質是通過Speed Select(SST)將單路CPU核心劃分爲兩組：最多8個高頻核心(PCT核心)與剩余低頻核心。在DGX B300場景中，這一技術直接服務於「CPU驅動GPU」的典型需求，實現高頻核心的精準調度：當GPU需要快速獲取預處理數據(如從內存讀取原始數據並完成清洗、特徵工程)時，8個PCT核心可睿頻至4.6GHz(傳統64核SKU最大睿頻為3.9GHz)，相比全核睿頻(3.6GHz)提升28%。這一特性縮短了數據從CPU到GPU的傳輸延迟。

　　3.資源分配的靈活性

　　PCT核心數量可通過BIOS或SST-TF工具動態配置，客户可根據實際負載調整——客户在使用時可以根據需要選擇8個、6個、4個或2個PCT核心。例如推理場景中若僅需4塊GPU工作，可配置4個PCT核心對應驅動，避免資源浪費。與上一代Max Turbo技術的差異在於：PCT允許全核在線(無需半數核心休眠)，且維持相同TDP(350W)與散熱設計，確保硬件兼容性，降低客户部署成本。

　　4.更強的內存架構兼容性

　　更高的內存帶寬對於AI工作負載至關重要，因為AI的工作流程是一個完整的數據處理管道，而非單一環節。在這一過程中，CPU首先負責預處理，從內存中讀取數據並進行初步處理，隨后將數據傳輸至GPU。比如，至強6支持8通道到12通道的DDR5-6400內存，還支持MRDIMMs，能提供更高的30%帶寬。

　　在LLM的生成式推理(如文本續寫)中，自注意力機制需為每個已處理的Token生成並存儲鍵(Key)和值(Value)矩陣，即KV Cache。KV Cache避免了在解碼階段重複計算曆史Token的注意力狀態，但會隨序列長度線性增長，佔用大量GPU顯存，需要卸載到下一級存儲中。對於CXL內存來説，有一個典型用例是KV Cache的卸載，通過用CXL內存去替代SSD，這樣KV Cache的訪問速度顯著增快，從而提升了性能。

　　5.RAS和數據預處理

　　在企業級AI訓練場景中，系統可靠性直接影響算力利用率與TCO。至強6的RAS體系覆蓋全硬件鏈路，可以通過RAS特性來可以提高I/O的穩定性、內存系統穩定性、UPI鏈路穩定性、CPU及平臺穩定性。CPU卸載則是針對MoE(混合專家)模型的另一種優化方式。目前市場上已有諸多關於通過AMX矩陣技術將部分MoE模型中的專家層卸載至至強處理器的案例。

　　二、為何是至強6776P？

　　NVIDIA DGX B300選擇的雙路至強6776P的核心價值在於業界領先的I/O能力、領先的內存帶寬、大內存容量、領先的RAS能力已經為特定AI負載優化的PCT產品。

　　其4.6GHz的睿頻能力顯著加速數據處理，PCT核心以4.6GHz頻率加速數據預處理(如文本分詞、圖像解碼)，通過高速PCIe通道將數據傳輸至GPU，形成「CPU預處理→GPU計算」的流水線作業。這款處理器擁有單路88條PCIe通道，雙路則達到176條。

　　英偉達選擇了2 DPC架構(每顆CPU提供8通道內存，每通道2個DIMM)進行配置，雙路系統可搭載32根DIMM，內存最大容量達8TB。

　　綜述：開放生態的實際意義

　　至強6的核心優勢在於開放性與兼容性。客户硬件選擇自由，可以根據成本動態切換，避免被單一供應商鎖定。在軟件生態兼容層面，至強6也完全支持主流AI框架(如TensorFlow、PyTorch)與雲原生技術，無需重新開發適配層，降低技術遷移成本。

　　從英偉達的選擇邏輯看，DGX B300採用至強6應該並非單一性能導向，而是綜合考量了生態開放性、成本可控性與技術成熟度——至強6 作為量產級產品，其穩定性與供應鏈可靠性已通過大規模數據中心驗證。

　　至強6在搭配NVIDIA GPU場景中的價值，本質上源於其對「CPU角色」的清晰定位：核心數量或睿頻頻率，都是圍繞GPU協同需求而定，根據用户的不同需求，也可以選擇不同的CPU型號。在關鍵路徑(如高頻數據傳輸、大內存容量、系統穩定性)上，至強6可以實現精準優化。對於企業客户而言，這意味着在AI基礎設施建設中，可通過標準化硬件獲取可預期的性能提升，同時避免為冗余功能支付額外成本。這種「需求導向型」技術路線，或許正是其成為英偉達首選主控CPU的核心原因。(來源：微型計算機)

術業有專攻——AI系統主控CPU英特爾至強6新品處理器淺析

推薦文章

美股異動 | AMD飆升32%，成交額超113億美元，與OpenAI達成重磅交易

一邊喊繁榮 一邊催降息：特朗普政府的「分屏式」經濟敍事

五三銀行擬以109億美元全股票交易收購科美利加銀行

傳OpenAI擬入股AMD，這家AI芯片製造商股價暴漲

美股機會日報 | 重磅！AMD盤前狂飆27%；美國政府停擺使資金湧入風險資產，比特幣、黃金再創歷史新高

高盛策略師稱美國企業盈利有望超預期 AI前景與經濟韌性成助力

美國政府停擺持續，黃金價格向4000美元關口邁進

特朗普政府誓要「稀土獨立」! 計劃入股Critical Metals(CRML.US) 押注格陵蘭稀土礦

一邊喊繁榮一邊催降息：特朗普政府的「分屏式」經濟敍事