熱門資訊> 正文
2025-09-17 09:28
內存延迟、帶寬、容量和能耗日益成為性能提升的瓶頸。在本文中,我們重新審視了由大量(從數太字節到拍字節規模)內存供眾多CPU共享的系統架構。我們認為,擴展性(scaling)和信號傳輸(signaling)這兩個實際的工程難題限制了此類設計。
為此,我們提出了一種相反的方法。系統不是創建大型、共享、同質的內存,而是明確地將內存分割成更小的片,這些片與計算單元更緊密地耦合。利用單片/2.5D/3D集成技術的進步,這種「計算-內存節點」提供私有本地內存,通過微米級距離訪問節點獨佔數據,並大幅降低訪問成本。封裝內內存元件支持處理器內的共享狀態,提供比封裝外的DRAM更好的帶寬和能效,而DRAM用於大型工作集和冷數據的主內存。通過硬件明確內存容量與訪問距離,軟件能夠高效地構建這種內存層次結構,從而實現對數據佈局和遷移的管理。
引言
一個大型分佈式內存地址空間的想法頗具吸引力。它能讓應用程序在單個主機之外無縫擴展,同時將緩存、一致性以及放置的複雜性留給底層系統處理。在 20 世紀 80 年代和 90 年代,這一想法以分佈式共享內存(DSM)的形式得到了探索,為現代多核和多處理器系統的內存一致性模型提供了借鑑。
隨着內存逐漸成為數據中心和雲服務器的瓶頸,研究工作正在重新審視這些理念,以期打造新一代系統,這些系統擁有巨大的網絡連接內存,且這些內存可在眾多處理器間共享。本文認為,由於現代工程面臨的兩個障礙——擴展性和信號傳輸,這種做法是不可行的。這些障礙是基於物理原理的實際限制。
首先是縮放能力,指的是利用更精密的工具和複雜的製造工藝,使晶體管和電路變得更小、更便宜的能力。存儲器技術的縮放已實質終結。靜態隨機存取存儲器(SRAM)和動態隨機存取存儲器(DRAM)的每字節成本均趨於平穩,且未來五年內無顯著降本路徑。隨着邏輯器件持續縮小(儘管速度較以往放緩),存儲器在系統成本中的佔比日益攀升,導致配置大容量存儲器在經濟性與架構設計上均不具優勢。我們應當着力提升存儲器利用效率。
第二道障礙在於信號傳輸——在給定帶寬下,組件間信號傳輸所需能量決定了內存能效與帶寬必須通過與計算邏輯的深度集成來提升[1]。在芯片片內,訪問遠端SRAM緩存行的速度更慢且能耗更高,而跨芯片片訪問成本則更為高昂。通過電路板走線訪問DRAM的成本高出一個數量級;而通過CXL或RDMA訪問遠程內存則會增加更多開銷。這些性能代價使得遠程內存變得極其昂貴。
面對這些障礙,我們提出了一種不同的方法:物理可組合的分解架構。系統由計算內存節點構成,這些節點將計算能力與私有本地內存及封裝內共享內存緊密集成,同時利用封裝外DRAM提供大容量存儲。軟件通過顯式組合內存系統來決定:哪些數據保留在本地,哪些在節點間共享,哪些移交至DRAM等。
2D縮放的終結:SRAM與DRAM
二維(2D)半導體縮放技術曾以更低成本實現更高存儲密度與容量。然而圖1顯示,無論是SRAM還是DRAM,傳統2D縮放都已走到盡頭。DRAM的每字節成本十余年來始終停滯不前,這正是服務器規模擴大后DRAM成本佔據系統成本主導地位的原因。[2] SRAM同樣面臨類似瓶頸:我們已無法制造更微小的SRAM單元。
對於SRAM而言,主要限制源於晶體管尺寸接近原子尺度:製造公差限制了交叉耦合反相器對的晶體管匹配度,從而降低信號裕度。計算邏輯不受此問題影響,因各級電路均可恢復數字信號。對於DRAM而言,主要制約因素在於高長寬比電容器的蝕刻成本以及確保低漏電流的複雜晶體管幾何結構。更先進的製程節點雖能縮小DRAM單元的物理尺寸,卻無法降低單存儲單元成本。我們雖可繼續製造更大容量的DRAM DIMM,但其每字節成本並不會下降。
從這些限制中得到的主要結論是:海量存儲必然伴隨天價成本。片上緩存的增長速度無法超越芯片面積的擴張,而現代服務器處理器已然龐大(AMD SP5達5,428mm²)。系統必須更高效地利用存儲資源。
局部性=效率與帶寬
更緊密的集成提升了數據在內存間傳輸的帶寬與能效。緩存正是這一原理的典範:L1、L2和L3緩存均採用相同SRAM技術,但L1緩存通過更小的存儲器銀行尺寸、更精細的訪問粒度以及更接近CPU核心的物理位置實現了卓越性能。
處理器插槽的DRAM帶寬正緩慢提升:現代DDR5-5600內存條帶寬達358Gbps,且每插槽內存條數量從8條增至12條,總帶寬達4.3Tbps。然而同期,每插槽核心數量的增長已超越或匹配帶寬提升幅度。圖2展示了自2018年以來英特爾與AMD服務器處理器封裝的單核帶寬:該指標已陷入停滯。
DRAM的帶寬限制和能耗問題源於其在印刷電路板(PCB)上的連接方式——該板載銅走線和凸點引腳數量有限(例如DDR5僅有288個引腳)。高帶寬內存(HBM)通過改進集成技術,將DRAM芯片重新定位並緊密排列。通過在多個DRAM芯片下方嵌入封裝內硅基邏輯芯片,並採用硅通孔技術連接,每組HBM3E堆棧可實現1024個引腳與更短的互連距離。這種引腳數量的顯著差異直接轉化為HBM的帶寬優勢。表1展示了更緊密的物理集成如何實現更高引腳密度、更寬帶寬及更低能耗。較低的引腳密度則需要更高速度的信號電路,從而增加能耗。
這些集成限制意味着核心性能無法通過DRAM獲得提升。電路板無法容納更多DIMM模塊,其引腳數量已達實際極限。銅線傳輸更高信號速率將帶來高昂的能耗代價。
物理可組合的解耦方案
這些擴展挑戰迫使我們對內存層次結構設計進行根本性重構——將關注點從原始容量轉向局部性、帶寬和能效。
我們提出顛覆傳統內存「解耦」思路,強調更精細的計算與內存集成,並優先提升內存利用率——即使這可能導致計算利用率小幅下降。該方案的核心是計算內存節點,通過3D集成技術將計算單元與本地內存堆疊集成,典型代表是AMD的VCache設計和Milan-X處理器。
與普通緩存不同,這種私有本地內存能夠採用顯式管理機制,並且是專用於存儲節點特有的數據(如執行棧及其他線程私有狀態)。通過微凸點、混合鍵合、硅通孔或單片晶圓級互連實現的微米級距離訪問,極大緩解了大地址空間帶來的延迟、能耗和帶寬瓶頸。借鑑現代多芯片處理器的實踐,跨節點共享狀態(如鎖機制)被置於封裝內共享內存(如HBM)中。儘管其速度低於私有局部片段,但仍遠優於封裝外DRAM的帶寬與能效表現。
然而,集成度受限於物理約束(例如散熱、模塊尺寸等)³。大容量存儲仍需依賴封裝外DRAM。DRAM不再作為共享的扁平地址空間池,而是轉變為面向大型工作集和冷數據的容量驅動型存儲層,而性能關鍵型訪問則通過更快的封裝內分散存儲器進行管理。軟件需自行構建內存系統:通過抽象層將「近零距離本地內存」與「更高延迟共享層級」一併呈現,決定哪些數據保留在本地、哪些共享、哪些移至封裝外DRAM,從而實現數據佈局與遷移的高效管理。