繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

OCS交換機專家紀要&談談對Google OCS的看法

2025-09-21 19:23

(來源:君實財經)

另一份OCS交換機的專家紀要

谷歌最新發布的TPUV7這一代產品OCS甚至可以支持9216個TPU的一個scale up組

網。明年谷歌的需求我們看到的話,保守估計會達到2.5萬套。如果GPU上量超預期,甚至OCS還有需求追加的這樣一個可能性。

谷歌在AI里面它實際上是做了大量的關於流量端口流量的一些規劃。甚至説跟他的算法芯片設計都做了深度的適配。所以能夠規避掉這種數據端口頻繁切換的這樣一些問題,充分發揮OCS的優勢。所以我們樂觀地認為,谷歌的這種垂直整合的方式,從芯片到算法到OCS交換機的使用,他是有着比較深的技術積累。

根據我們對目前OCS的這樣一個發展趨勢來判斷,2030年之前OCS的市場規模會超過20億美金。同時它的一個需求量在當前一點幾萬沒一點幾萬台的基礎上,會增長到至少5萬台。遠期空間我們甚至看到隨着OCS的這樣一個切換,時延從毫秒級到微秒級,甚至未來納秒級的話,可以直接替換電交換機。它的空間可以達到現在數據中心電交換機的30%左右的一個市場佔比。而目前在數據中心里面,電交換機的市場規模大概在80到100萬台。對OCS的一個交換機的理論空間可以達到30萬台這個級別。

OCS內部用到很多的這種包括棱鏡、轉直透鏡、暗攝像、分光線隔離器這些產品的話,國內的光器件的上市公司。有非常強的這樣一個定製開發的能力。實際上是可以為lumemtum,coherent甚至谷歌定製這樣一些光交換機用的光器件。另外還有像這個mems方案里面的核心的mems芯片。國內也有相關的廠商具備這方面的製造和加工能力。甚至説谷歌的這個mems芯片就是國內的這家廠商的子公司來進行代工的。

單片mems芯片目前的成本甚至達到3000美金,一臺OCS里面需要用兩個,也就是6000美金的價值量。對隨着國內國外這種OCS的放量,我們看到的就是説OCS內部的這些器件都是屬於門檻較高。價格較高,毛利也較高的這樣一些產品,會給國內的一些相關產業鏈上的上市公司帶來比較大的業績提升。

國內碧韌科技也發佈了基於OCS的這樣一個超節點互聯方案。這個的話在今年就可以實現兩千卡的一個OCS互聯。從規模上來講,那肯定還是弱於谷歌的這種4096或者説9216這樣一個大幾千卡的這樣一個規模組網能力。但至少這也是代表國內的這樣一個發展的這樣一個趨勢。在AI的scale up網絡里面,國內也會嘗試用OCS來進行組網。用OCS來進行組網的優勢。就是説大家經

常也能看到的宣傳的就是説OCS它是基於光的通道來切換,或者説是基於物理層的這樣一個通道。它跟每個GPU的這樣一個接口協議助理都不相關。所以OCS實際上是一個非常好的這種對協議透明,對傳輸速率透明。兼容性非常好的這樣一個互聯產品。理論上它可以針對國內這種GPU的這種生態比較分散,比較雜的這種情況。它是一個非常好的這種應用。

這個跟海外的GPU都是英偉達來主導的不一樣。所以英偉達它目前重點在AI網絡里面,是特別是第二網絡里面,他會當前選擇的是銅纜互聯。未來它也會優先發展GPU的這個技術來做scale up互聯。

但是國內我們説認為是有可能會走出一條不一樣的路,會用OCS來進行scale up的互聯。因為它的兼容性更好,它無視不同GPU廠商的這種速率協議這方面的差異。所以是一個更加開放,更加兼容的這樣一個選擇。這個是我非常看好,也是認為未來OCS發展最大的這樣一個潛在市場。特別是國內你像華為聯合光訊科技在做的這種mems OCS方案,或許很快就會用在這種更大規模的scae up主網上。因為大家有關注到今天華為就是有發佈它的最新的這種叫萬卡互聯的超節點規模,這個發展還是非常快的。將來超節點的這樣一個規模越大,實際上用OCS的這種互聯的這樣一個機會就會越多。因為OCS的特點就是説時延非常短,功耗非常低。而且可以對故障的這樣一個GPU和設備進行隔離,可以切換。這三個點都是scare up網絡的一個核心訴求。那麼時延低,因為有統計數據表明,scale up網絡里面這個時延要求是在一個微秒以內。如果整個網絡數據傳輸的時間每增加一微秒,GPU的利用率就會下降一兩個點對吧?所以scale up網絡最關注的實際上就是時延。

scale out網絡其實更關注的反而是帶寬是吧?帶寬要足夠大。我們現在OCS主要是受限於端口,端口數量現在還比較少。所以從總帶寬上來比,它並不能比這個電交換機槍。但是在時延和功耗上,它是具有絕對的這種領先優勢的,非常適合scle up網絡的一個組網。目前的話之所以還沒有大規模上量,主要是因為大家在scale up的超節點的規模上,目前還相對較小。

關於CPO和光模塊

CPO這邊,它跟光模塊的差異是説CPO是高度定製的。高度定製的就是需要跟交換機的廠商和芯片設計要去做深度的協同開發的匹配。所以現在我們看到,包括中際旭創華工科技,他們展示的更多的是説他們在CPO光引擎封裝這一塊的能力,而不是説真正的終端的一個可以上樣的一個產品。

我們一直強調CPO實際上是一個封閉的生態,甚至説是一個貴族俱樂部。除了你自己要有這樣一個能力去做相關的器件和產品以外,你還得有配套的這種客户資源和客户認證的這樣一個機會。而且目前的CPO的話,即使國內的中興、華為都在做一些研究,但是受限於CPO需要這種高製程的,比如説三納米、5納米的這樣一些交換芯片去配套開發。國內包括華為受限於這樣一個製程限制,沒辦法去製造這種先進芯片。所以國內CPO的這個交換機設備應該來説還是受制於海外的。我們看到包括新華三、鋭捷都陸續開發了CPO交換機,但這里面基本上是用到了全套是博通的這個芯片方案。所以如果要看CPO的話,我是建議重點關注海外的產業鏈。海外產業鏈里面重點就看博通和英偉達他們的CPO產品里有哪些部件是國內廠商有參與的

談談對Google OCS的看法…

為什麼要用OCS?

Google 推 OCS,是因為 AI 集羣流量是「大規模、長持續時間、規律性強」的典型光路適配型流量,比如AI訓練過程中的AllReduce通信操作。OCS 通過直通光路 + 可重構拓撲,大幅降低功耗和CAPEX,提高帶寬利用率和吞吐,對超大規模 AI 數據中心至關重要。但要注意 OCS 不適合小粒度、隨機流量,理由這里先不講。

換句話説,就是AI大模型範式定了之后,搞OCS帶寬更高,功耗更低,花費更少。

為什麼過去OCS不可以,現在可以了?

首先,MEMS(Micro-Electro-Mechanical Systems,可控微鏡)型光路交換機的切換速度存在天然瓶頸。目前業界主流的 3D-MEMS OCS,其鏡面旋轉與穩定過程通常需要 10–20 毫秒,在大規模部署中,由於還需等待控制收斂、收發器重新鎖定、功率均衡等過程,端到端切換延迟往往達到 數十到數百毫秒,甚至秒級。

這種時間尺度遠慢於電子交換機的微納秒級轉發能力,因此 MEMS OCS 無法有效應對微突發流量。在實際運行中,當通信模式發生變化,需要新的節點對之間建立光路時,MEMS 微鏡必須先完成機械動作並重新對準目標光纖。這意味着,在此期間,其他依賴該鏈路的通信都會被迫阻塞,直到光路重新建立,整個通信過程才能繼續。

這一過程可以類比為早期的電話交換臺:在沒有自動化交換機之前,每一通電話都需要接線員人工插拔線纜來完成轉接。對於少量、長時間的通話尚能接受,但如果是一個大規模人羣同時相互撥打電話,每次都要依賴接線員逐一手動連線,那麼系統的效率就會嚴重受限,等待時間極長。

同理,如果通信模式頻繁變化,而 OCS 每次重構都需要幾十毫秒甚至更長,整個系統就會出現明顯的性能空窗期。這就是為什麼當前 OCS 更適合承載長持續時間、大帶寬、可預測的流量(如大模型訓練中的 AllReduce、參數同步),而不適合短小突發通信。

其次,OCS的調度複雜,需要與上層調度器協調,預測流量,否則光路可能閒置。與電子交換機不同,OCS 不具備微秒級的快速轉發與動態路由功能,而是需要提前規劃並建立端到端光路,這意味着 OCS 的帶寬利用率高度依賴於流量預測與調度策略。換句話説,OCS 就像高鐵,必須提前編好車次、排好線路,才能高效運送大規模客流。如果乘客(流量)臨時改變計劃,而高鐵(光路)已經排定,那就會出現空車或乘客擁堵的情況。

明白了以上兩點,也就明白了為什麼這麼多年Google OCS一直不愠不火的原因。但是大家也可以看出,如果大模型範式基本固定下來,也就是通信模式固定,不需要頻繁調整MEMS,採用OCS就是非常合適的。

很多人會擔心OCS會不會消滅光模塊,一定是不會,因為節點端缺少光存儲,無法直接完成光計算,這也就是意味着想要藉助光子傳輸數據必然要進行電-光轉換,也就是要用到光模塊。但是在單個AI數據中心集羣固定規模的前提下,OCS 一般意義上是會減少光模塊用量的。因為減少了多余的電交換層,每一層傳統交換機之間的互連,都要通過光模塊完成光-電-光轉換。現在是通過OCS的光數據不需要進行光-電-光轉換,可以直接進行光數據轉發。具體可以看下圖,a是傳統的電交換,紅色箭頭處需要使用光模塊進行光-電-光轉換,而b則是OCS,藍色箭頭處不需要使用光模塊進行光-電-光轉換。

此外,爲了適應 OCS + WDM 光路,光模塊必須支持更高光譜效率、更低損耗和更快調製。換句話説,會推動光模塊向更高速率(800G、1.6T)、更先進工藝(SiPh、CPO)演進。其實沒有OCS,因為計算通信比的牽引,光模塊也是朝着更快速率,更先進工藝前進的,這下只是敍事助力而已。至於產業鏈直接受益,國內就是TJKJ(發射/接收模組、環行器、波分複用器等)、JGKJ(MEMS微透鏡陣列)、GKKJ(MEMS光開關)等等。剩下的大家根據邏輯,自行挖掘一下,應該很簡單。Google朝着4萬億越來越近了,明確地表達,對應的漲勢,國內的Google鏈同步漲勢如虹

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。