繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

芯片雙雄,決戰Chiplet

2023-09-24 10:03

自遵循IBM的要求,將X86架構和產品授權AMD以來,英特爾和AMD就成爲了處理器領域當之無愧的巨頭。尤其在PC時代,這兩者幾無競爭對手,他們也一直引領着芯片設計。

雖然錯過了手機時代,但現在的服務器和AI時代,這兩家半導體「老兵」有了廣大的發揮之地。爲了滿足終端的需求,他們也在自己的芯片設計和製造上各出奇招。

繼該領域的先驅 AMD 之后,英特爾在日前的Intel Innovation活動上也宣佈推出基於 Chiplet 的產品 Meteor Lake(圖 1)。據介紹,Meteor Lake 的結構結合了 5 種類型的tile:當中包括了4 種類型的tile(CPU/IO/圖形/SoC)以及位於所有這些tile之下的基本tile。從這顆芯片開始,我們正式見證了英特爾全面進入Chiplet時代。

圖1

AMD和Intel,也再次在同一個戰場上相遇。

為什麼需要Chiplet?

Chiplet 是小型模塊化芯片,組合起來形成完整的片上系統 (SoC)。它們提高了性能、降低了功耗並提高了設計靈活性。概念已經存在了幾十年,早在2007年5月,DARPA也啟動異構異構系統的COSMOS項目Chiplet,其次是用於Chiplet模塊化計算機的 CHIPS 項目。但最近,Chiplet在解決傳統單片 IC 縮小尺寸的挑戰方面受到關注。這是當前芯片製造產業發展瓶頸與終端對芯片性能需求之間矛盾所產生的妥協結果。

圖2

據Yole表示,摩爾定律背后的創新引擎使得不斷提高的設備集成度能夠繼續適應相同的物理尺寸。例如,如果光刻縮小可以使構建塊縮小 30%,那麼就可以在不增加芯片尺寸的情況下增加 42% 的電路。這大致是幾十年來邏輯收縮的速度。

然而,雖然邏輯往往可以很好地擴展,但並非所有半導體器件都享有這一優勢,例如可以包含模擬電路的 I/O,其擴展速度約為邏輯的一半,並且即使對於最領先的晶圓代工廠TSMC而言,SRAM 單元最近向 3nm 的過渡尺寸幾乎沒有,這就讓人不得不尋找新的出路。此外,完整的 SOC 不僅需要邏輯門,還需要許多不同類型的器件電路,以及維持市場競爭力的最低水平創新。有見及此,設計師已經開始選擇設計更大的整體die。然而,較大芯片的危險在於對良率的影響,因為隨着芯片變得越來越大,它包含足夠的關鍵缺陷而導致其功能失調的可能性就更高。

圖3

而且,光刻縮小成本並不便宜。因為改變晶體管的形狀和尺寸只能帶來價格更高的設備和更長的處理時間。因此,採用 7nm 工藝加工的晶圓成本高於採用 14nm 工藝加工的晶圓成本,5nm 工藝的成本高於 7nm 工藝,依此類推……當我們在成本模型中檢查這一趨勢時,我們看到一個明顯的趨勢:隨着晶圓價格的上漲,小芯片方法的經濟性比單片方法更具吸引力。

圖4

據Yole所説,每個新芯片設計都需要設計和工程資源,並且由於新節點的複雜性不斷增加,每個新工藝節點的新設計的典型成本也隨之增加。這進一步激勵人們創建可重複使用的設計。小芯片設計理念使這成為可能,因為只需改變小芯片的數量和組合即可實現新的產品配置,而不是啟動新的單片設計。例如,通過將單個小芯片集成到 1、2、3 和 4 芯片配置中,可以從單個流片創建 4 種不同的處理器品種。如果完全通過整體方法完成,則需要 4 次單獨的流片。

正因為如此,異構小芯片集成市場正在快速增長。據估計,小芯片的市場價值預計到 2025 年將達到 57 億美元,到 2031 年將達到 472 億美元。電子設計中對高性能計算、數據分析、模塊化和定製的需求不斷增長正在推動這一增長。

圖5

總結而言,我們認為chiplet 具備以下四個優點:

1、通過將功能塊劃分爲小芯片,我們可以防止芯片尺寸增加。這可以提高良率並簡化設計/驗證。

2、可以為每個小芯片選擇最佳工藝。邏輯部分可以採用尖端工藝製造,大容量SRAM可以使用7nm左右的工藝製造,I/O和外圍電路可以使用12nm或28nm左右的工藝製造,從而減少了設計和製造成本。製造成本。如果採用28nm左右的工藝,甚至可以嵌入閃存。

3、輕松製造衍生類型,例如相同邏輯但不同外圍電路,或相同外圍電路但不同邏輯。

4、讓來自不同製造商的小芯片可以混合使用,而不僅僅是侷限在單個製造商內。

然而,在英特爾和AMD最新發布的信息和產品看來,他們似乎對Chiplet有不一樣的思考。

英特爾的選擇

從名為「Ponte Vecchio」的芯片我們可以看到,英特爾充分利用了該小芯片的優勢。

而如圖所示,Ponte Vecchio的整體tile面積比「Sapphire Rapids 」要小一點(Sapphire Rapids是400平方毫米x 4,也就是1,600平方毫米。Ponte Vecchi總共不到1,300平方毫米),但是有實際上是16個tile。它由一個計算tile、8個Rambo緩存tile、8個HBM2e I/Ftile和2個Xe-Linktile組成(還有很多HBM的基礎tile和控制器,並且有8個HBM。但是,讓我們將其從計數中排除)。

圖5:左起Sapphire Rapids XCC/Sapphire Rapids HBM/Ponte Vecchio

基礎tile相當大,不過只是簡單的連接了走線,集成了HBM控制器等,而且工藝是Intel 7。計算塊的尺寸小於 100 平方毫米,因為採用 TSMC N5。Rambo Cache 仍然是使用Intel 7,但是到了HBM2e SerDes 則用了TSMC N7。通過分離功能塊,我們能夠提高驗證和良率,並且現在可以對每個塊使用最佳工藝。

由於它同時使用EMIB和Foveros封裝連接技術,因此它滿足上面談到的Chiplet優勢中的1和2,儘管它偏離了UCIe指定的chiplet。除了完整的英特爾數據中心 GPU Max 1550 之外,該產品線還包括半尺寸的數據中心 GPU Max 1100,可滿足 3和4所説的優勢,但考慮到目前這還不是必要條件,Ponte Vecchio可以説是「正確利用chiplet思想的產品」。

問題在於 Xeon Max,或者更確切地説 Sapphire Rapids(圖片5中排列在最左)

誠然,物理上它是一個由四個tile組成的chiplet,但每個tile具有包括CPU核心、內存控制器、PCIe/CXL、UPI和加速器在內的所有功能,並且tile尺寸為400平方毫米。另外,因為我們按照這種形狀排列了四塊tile,所以我們必須準備兩種鏡面對稱的tile,所以這不符合上文談到的1到3優勢。

今年(2023年)3月舉行的DCAI投資者網絡研討會上展示了后繼產品Emerald Rapids的樣品(圖6),但這次不需要準備兩種類型的tile,但tile的尺寸增加到幾乎是光罩限制(芯片尺寸限制),並且優點1、2和3仍然完全被忽略。

圖6:封裝與Granite Rapids相同,因此tile尺寸約為25.2 x 30.9毫米,使其達到778.7平方毫米的巨大尺寸。

雖然這個Xeon Scalable物理上是一個chiplet,但它的設計原理與上面寫的「chiplet的有點」不同。不過,他們看起來很自信。這主要有兩點原因。

原因一:該小芯片具有內置內存控制器。這意味着出現的內存通道將根據小芯片的數量而變化。事實上,如果你看一下照片 2 右下角的圖表,則可以發現有:

3 個小芯片:12 通道 DDR5

2 個小芯片:8 通道 DDR5

1個chiplet:如果保持原樣,它將成為4通道DDR5,因此請準備另一個8通道的chiplet。

這就是它的意思。此外,如果有 4 個或更多小芯片,DDR 將是 16 通道或更多,從而無法保持與平臺的兼容性。

原因二:Tile尺寸很大。根據Hot Chips披露的信息,Granite Rapids配備了4MB/核心的L3。這意味着每個核心的面積大小比 1.875MB/核心 Sapphire Rapids 大得多。

核心數量本身尚未正式公佈,但根據目前流傳的信息,似乎最多為 132 個核心,這意味着每塊 44 個核心。包括DDR5內存控制器在內,共有46個塊。

我認為 Granite Rapids 一代計算 Chiplet 的結構,據此估計,是這樣的(圖 1)。有48個12x4塊,其中44個是CPU,2個是內存控制器(其余兩個未知,但它們實際上可能是CPU的冗余塊)。

圖7:Granite Rapids生成計算chiplet

用橙色繪製的水平網格在 Chiplet 內完成,但紅色垂直網格通過 EMIB 連接多個 Chiplet。因此,對於一個chiplet,垂直方向有6個網格,水平方向有4個網格,但對於2個chiplet,垂直方向有6個網格,水平方向有8個網格,而對於3個chiplet,則有6個網格。垂直方向12個網格,水平方向12個網格,它就成為一本書。

嗯,到目前為止一切順利。這是小芯片的一種形式,但問題是,這個計算塊有多大?

以 Sapphire Rapids 為例,一塊 400 平方毫米的tile包含 20 個等效塊。換句話説,每個塊的大小約為 4 毫米 x 5 毫米,即 20 平方毫米。實際上,每個塊的尺寸較小,約為 13.2 平方毫米,因為 PHY 和其他組件放置在該塊周圍。

現在,如果我們忘記 PHY 並假設該塊的大小不變,則 48 個塊的大小將為 633.6 平方毫米。

現實中,由於工藝從Intel 7改為Intel 3,我們可以預期面積會更小(Intel公告稱Intel 4中HP Library的面積將是Intel 7的0.49倍)。但是, L3緩存從1.875MB顯着增加到4MB,工藝小型化對於這個L3緩存來説效果不是很大(因為佈線層的間距比晶體管的尺寸影響更大。説實話,沒有Intel 7 和 Intel 4 之間存在很大差異,Intel 3 可能也是如此),所以這並不是什麼大問題,但遠非差異的一半。那麼,如果能夠將633.6平方毫米壓縮到600平方毫米左右,豈不是一個好主意?

考慮到將包含用於 EMIB 的 PHY 和用於 DDR5 的 PHY,預計雖然形狀會橫向較長,但面積約為 700 平方毫米,與 Emerald Rapids 相差不大。簡而言之,它太大了,不能稱為chiplet。

為什麼Intel要選擇良率似乎越來越差的解決方案呢?筆者認為,這主要是因為英特爾覺得Sapphire Rapids(包括下一個Granite Rapids,甚至之后的Diamond Rapids)之后的解決方案變成——「如果可能的話,我想製作一個巨大的整體die,但這在物理上是不可能的(標線限制),所以我認為它意思是「把它分開然后再重新組合起來」。這正是內部網格擴展后的樣子。換句話説,他們可能希望將所有內容保留在一個芯片上,而不盡可能地劃分功能。

這樣做性能當然更好。而且,英特爾的巨型芯片方法可以大大降低 CPU 之間的通信延迟,並且對內存控制器的訪問速度更快。作為權衡,預計驗證工作將變得更加複雜,並且由於芯片尺寸更大,良率將下降。

但是,AMD在Chiplet上,卻有了另一種思路。

AMD的思考

首先,我們看一下AMD在Chiplet上的演進,這首次在Ryzen 處理器上實現。

據瞭解,第一代 Ryzen 架構相對簡單,採用SoC 設計,從內核到 I/O 和控制器的所有內容都位於同一芯片上。引入了 CCX 概念,其中 CPU 核心被分為四核單元,並使用無限高速緩存進行組合。兩個四核 CCX 形成一個芯片。

圖8:AMD Ryzen 1000 Zen 1 CCD

值得注意的是,儘管推出了 CCX,但消費類 Ryzen 芯片仍然是單芯片設計。此外,雖然 L3 緩存在 CCX 中的所有核心之間共享,但每個核心都有自己的slice。訪問另一個 CCX 的末級緩存 (LLC) 相對較慢,如果是在另一個 CCX 上,則速度更慢。這導致遊戲等對延迟敏感的應用程序性能不佳。

圖9

到了Zen+ 時代,情況基本上保持不變(節點縮小),但 Zen 2 是一個重大升級。這是第一個基於小芯片的消費類 CPU 設計,具有兩個計算芯片或CCD和一個 I/O 芯片。AMD 在 Ryzen 9 部件上添加了第二個 CCD,其核心數量在消費者領域前所未見。

16MB L3 緩存對於 CCX 上的所有核心來説更容易訪問(讀取:更快),從而大大提高了遊戲性能。I/O 芯片被分離,Infinity Fabric 被升級。此時,AMD 在遊戲方面稍慢一些,但提供了比競爭對手英特爾酷睿芯片更出色的內容創建性能。

圖10

Zen 3進一步完善了chiplet設計,取消了CCX並將八個核心和32MB緩存合併到一個統一的CCD中。這大大減少了緩存延迟並簡化了內存子系統。AMD 鋭龍處理器首次提供了比主要競爭對手英特爾更好的遊戲性能。Zen 4 除了縮小 CCD 設計外,沒有對 CCD 設計做出顯著改變。

圖11

來到Epyc系列處理上。資料顯示,在第一代 AMD EPYC 處理器中,英特爾基於四個複製的小芯片。每個處理器都有 8 個「Zen」CPU 內核、2 個 DDR4 內存通道和 32 個 PCIe 通道,以滿足性能目標。AMD 必須為四個小芯片之間的 Infinity Fabric 互連提供一些額外的空間。

據相關預估,在 14 納米工藝中,每個小芯片的芯片面積為 213 平方毫米,總芯片面積為 4213 平方毫米 = 852 平方毫米。與假設的單片 32 核芯片相比,這意味着大約 10% 的芯片面積開銷。基於使用成熟工藝技術的歷史缺陷密度數據進行的 AMD 內部良率建模,估計四小芯片設計的最終成本僅為單片方法的約 0.59,儘管總硅消耗量多出約 10%。除了降低成本之外,他們還能夠在產品中重複使用相同的方法,包括使用它們構建 16 核部件,將 DDR4 通道加倍並提供 128 個 PCIe 通道。

但這一切都不是免費的。當小芯片通過 Infinity Fabric 進行通信時,會產生延迟,並且同一小芯片上的 DDR4 內存通道數量不匹配,因此必須謹慎處理某些內存請求。因此到了第二代AMD EPYC處理器(ROME)上,AMD採用了雙芯粒的方法。

據瞭解,AMD的第二代EPYC的第一個芯粒稱為I/O die(IOD),是在一個成熟和經濟的12nm工藝中實現的,包含8個DDR4內存通道,128個PCIe gen4 I/O通道以及其他I/O(如USB和SATA, SoC數據結構,和其他系統級功能)。第二個小芯片則是複合核心die(CCD),在7nm節點上實現。在實際產品中,AMD將一個IOD與多達8個ccd組裝在一起。每個CCD提供8個Zen 2 CPU內核,因此這種排列方式可以在一個插槽中提供64個內核。

圖12

在第三代的Epyc處理器(Milan)上,AMD提供多達64個核心和128個線程,採用AMD最新的Zen 3核心。該處理器設計有八個小芯片,每個小芯片有八個核心,與Roma類似,但這次小芯片中的所有八個核心都是連接的,從而實現了有效的雙 L3 緩存設計,以實現較低的整體緩存延迟結構。所有處理器都將配備 128 個 PCIe 4.0 通道、8 個內存通道,大多數型號都支持雙處理器連接,並且提供通道內存優化的新選項。所有 Milan 處理器都應通過固件更新與 Rome 系列平臺直接兼容。

到了第四代Epyc處理器,AMD在其Chiplet架構上採用多達 12 個 5 納米複雜核心芯片 (CCD) 的小芯片設計,其中I/O 芯片採用 6nm 工藝技術,而其周圍的 CCD 則採用 5nm 工藝。每個芯片具有 32MB 的 L3 緩存和 1 MB 的 L2 緩存。因為AMD 的 Epyc 設計是完全集成的小芯片,也稱為片上系統。這意味着它們將所有核心組件(例如內存和 SATA 控制器)集成到處理器中,主板上不再需要強大的芯片組,從而降低了成本並提高了效率。

AMD的產品技術架構師Sam Naffziger在一篇論文中還表示,AMD是第一批商業化引入硅中介層技術的公司之一,這讓其在產品設計上擁有了更多優勢。早前在接受IEEE採訪的時候他更是直言「「我們架構的目標之一是讓它對軟件完全透明,因為軟件很難改變。例如,我們的第二代 EPYC CPU 由被計算芯片包圍的集中式 I/O小芯片組成。當我們採用集中式 I/O 芯片時,它減少了內存延迟,消除了第一代的軟件挑戰。」

在內存控制器上,和上文提到的Intel做法不一樣,AMD將內存控制器移到了IOD,而CCD只有CPU核心和L3緩存,所以有4/8/12多種CCD,不過兩款產品都可以使用12 通道 DDR5。

圖13

在EPYC系列中,AMD也一直使用Infinity Fabric來連接CCD和內存控制器,這不但提高了靈活性,還降低了成本。但是,由於使用Infinity Fabric而帶來了延迟增加的性能損失,AMD也不能倖免。即便如此,AMD還是通過使用大容量三級緩存等努力將影響降至最低,這似乎並不是英特爾的選擇。

正如Sam Naffziger所説,AMD正在尋找擴展邏輯的方法,但 SRAM 更具挑戰性,而模擬的東西絕對無法擴展。所以AMD已經採取了將模擬與中央 I/O 小芯片分離的步驟。藉助3D V-Cache(一種與計算芯片 3D 集成的高密度緩存小芯片),AMD分離出了 SRAM。展望未來,公司可能會看到有更多類似的操作。

最后,我們重申一下,這兩家公司的Chiplet戰略都是基於當前所見的產品所做的分析,並不代表他們的最終策略。但從這些分析中,我們無疑能給Chiplet的設計帶來更多的思考。

參考鏈接

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。