繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

特斯拉表示:沒必要自制芯片

2022-07-21 10:36

半導體行業觀察(ID:icbank)綜合,謝謝。

在第二季度的財報會議上,特斯拉方面表示,特斯拉沒有必要自己製造芯片,會和供應商合作,特斯拉已經使用了大量定製芯片。同時,特斯拉也在通過改寫軟件、把多種功能集合起來等方式,來減少芯片使用、應對芯片供應問題。

早在2019年四月,特斯拉正式發佈了其自研自動駕駛芯片,按照馬斯克的説法,這款由三星負責代工的自研芯片已是「世界上最好的芯片」,遠超其他競爭對手,其性能已是此前使用的英偉達芯片的21倍。特斯拉認為,在性能大幅度提升的同時,其自研芯片成本和功耗均較此前使用的方案更低。

到了去年,特斯拉又宣佈了其最新的Dojo芯片。

特斯拉Dojo芯片,領先競爭對手一個數量級

特斯拉剛剛召開了他們的人工智能日,並透露了其軟件和硬件基礎設施的內部工作原理。此次公開的部分一是之前公開的Dojo AI訓練芯片。特斯拉稱他們的 D1 Dojo 芯片具有 GPU 級別的計算能力、CPU 級別的靈活性,以及網絡交換機IO。

幾周前,我們推測該系統的封裝是 TSMC 晶圓集成扇出系統 (InFO_SoW)。我們解釋了這種類型的封裝的好處以及這種大規模擴展訓練芯片所涉及的冷卻和功耗。此外,我們估計該軟件包的性能將優於 Nvidia 系統。所有這些似乎都是有根據的推測。今天,我們將深入的挖掘更多的半導體細節。

在我們深入討論硬件之前,讓我們先談談評估基礎架構。特斯拉不斷地重新訓練和改進他們的神經網絡。他們評估任何代碼更改以查看是否有改進。在汽車和服務器中部署了數以千計的相同芯片。他們每周進行數百萬次評估。

多年來,特斯拉一直在擴大其GPU集羣的規模。如果特斯拉停止所有實際工作負載,運行Linpack,並將其提交到Top500榜單,他們目前的訓練集羣將成為第五大超級計算機。然而,對於特斯拉和其雄心來説,這種性能的擴展是不夠的,所以他們在幾年前就開始開發自己的Dojo芯片項目。特斯拉需要更高的性能,以節能且經濟高效的方式實現更大、更復雜的神經網絡。

特斯拉的架構解決方案是分佈式計算架構。當我們聽他們的細節時,這個架構看起來很像Cerberus。我們分析了Cerebras晶圓級引擎及其架構。每個AI訓練架構都是以這種方式佈置的,但計算元素、網絡和結構的細節差別很大。這些類型的網絡最大的問題是擴大帶寬和保持低延迟。爲了擴大網絡規模,特斯拉特別關注於此,這影響了他們設計的每個部分,從芯片材料到封裝。

該功能單元被設計為可通過1個時鍾周期,但足夠大,以至於同步開銷和軟件不是主要問題。因此,他們得出的設計幾乎和Cerebras一模一樣。由高速結構連接的單個單元的網狀結構,該結構在一個時鍾內的功能是單元之間的路由通信。每個單元都有一個大的1.25MB SRAM暫存板和多個具有SIMD功能的超標量CPU核,以及支持所有常見數據類型的矩陣乘法單元。此外,他們還引入了一種名為CFP8的新數據類型,可配置浮點8。每個單元可在BF16 / CFP8上支持1TFlop,FP31上64GFlops,每個方向512GB/s的帶寬。

CPU也是毫不遜色,它在矢量管道上是4寬2寬。每個核心可以承載4個線程,以最大限度的提高利用率。遺憾的是,特斯拉使用了定製的ISA,而不是像 RISC V 這樣的頂級開源 ISA。這個定製的ISA引入了轉置,收集,廣播,和鏈接遍歷的指令。

這354個功能單元的全芯片可達到BF16或CFP8的362 TFlops和FP32的22.6 TFlops。它總共有645mm²和500億個晶體管。每個芯片都有驚人的400W TDP,這意味着功率密度高於大多數配置的Nvidia A100 GPU。有趣的是,特斯拉實現了每mm²上集成7750萬個晶體管的有效晶體管密度,僅次於移動芯片和蘋果M1,比其他所有高性能芯片都要高。

基本功能單元的另一個有趣的方面是NOC路由器。它與Tenstorrent有非常類似的在芯片內部和芯片間的擴展方式。毫不意外,特斯拉正在採用與其他備受推崇的人工智能初創公司類似的架構。Tenstorrent 非常適合擴展培訓,而特斯拉非常關注這方面。

在芯片上,特斯拉擁有驚人的10TBps定向帶寬,但這個數字在實際工作負載中沒有多大意義。特斯拉相對於Tenstorrent的一個巨大優勢是芯片之間的帶寬要高得多。他們在 112GTs 上有 576 個 SerDes。這產生了總共 64Tb/s 或 8TB/s 的帶寬。

我們不確定特斯拉每條邊的4TB/s是從哪里得到的,更有可能是X軸和Y軸上的數字。先不説這張令人困惑的幻燈片,這個芯片的帶寬是瘋狂的。目前已知的最高外部帶寬芯片是32Tb/s網絡交換機芯片。特斯拉能夠通過大量的SerDes和先進的封裝將這個數字翻倍。

特斯拉通過PCIe 4.0將Dojo芯片的計算平面連接到連接主機系統的接口處理器上。這些接口處理器還支持更高的基數網絡連接,以補充現有的計算平面網格。

25個D1芯片被封裝成 「扇出晶圓工藝(fan out wafer process)」。特斯拉並沒有像我們幾周前猜測的那樣確認這個封裝是臺積電的集成晶圓扇形系統(InFO_SoW),但考慮到瘋狂的芯片間帶寬和他們特別提到的扇出晶圓,這看起來很有可能。

特斯拉開發了一種專有的高帶寬連接器,可以保留這些芯片之間的芯片外帶寬。每個芯片都有令人印象深刻的9PFlops BF16/CFP8和36tb /s的off-tile帶寬。這遠遠超過了Cerebras的晶圓外帶寬,使特斯拉系統的橫向擴展能力甚至比橫向擴展設計(例如 Tenstorrent 架構)還要好。

電源傳輸是獨一無二的,定製的,也非常令人印象深刻。由於具有如此大的帶寬和超過 10KW 的功耗,特斯拉在電力傳輸方面進行了創新,並垂直供電。定製穩壓器調製器直接回流到扇出晶片上。功率、熱量和機械都直接與芯片連接。

即使芯片本身的總功率只有10KW,但芯片的總功率仍然是15KW。電力傳輸、IO和晶圓線也在消耗大量的電力。能量從底部進來,熱量從頂部出來。特斯拉的規模單位不是芯片,而是25塊芯片。這個貼圖遠遠超過了Nvidia, Graphcore, Cerebras, Groq, Tenstorrent, SambaNova,或任何其他AI訓練項目的單位性能和擴展能力。

所有這些似乎都是非常遙遠的技術,但特斯拉聲稱,他們已經在實驗室的真實人工智能網絡上以2GHz的頻率運行了芯片。

擴展到數千個芯片的下一步是服務器級別。Dojo可擴展為2 x 3的tile配置,在一個服務器中有兩個這樣的配置。對於那些在家計數的人來説,每個服務器總共有12個tile,每個服務器總共有108個PFlops,超過100,000個功能單元,400,000個定製核和132GB SRAM是令人震驚的數字。

特斯拉不斷擴大其網格中的機櫃級別。芯片之間沒有帶寬中斷,它是一個具有驚人帶寬的同質芯片網格。他們計劃擴大到10個機櫃、1.1 Exaflops、1,062,000個功能單元、4,248,000個核心和1.33TB的SRAM。

軟件方面很有趣,但我們今天不會太深入討論。他們聲稱他們可以對其進行虛擬細分。他們説不管集羣的大小如何,軟件都可以在Dojo處理單元(DPU)之間無縫擴展。Dojo 編譯器可以處理硬件計算平面的細粒度並行和映射網絡。它可以通過數據模型圖並行性來實現這一點,但也可以進行優化以減少內存佔用。

模型並行性可以跨芯片邊界擴展,甚至不需要大批量的輕松解鎖具有數萬億參數甚至更多參數的下一級AI模型。他們不需要依賴手寫的代碼來在這個龐大的集羣上運行模型。

總的來説,與英偉達的GPU相比,成本相當,但特斯拉聲稱他們可以實現4倍的性能,每瓦性能提高1.3倍,減少5倍的面積。特斯拉的TCO優勢幾乎比英偉達的AI解決方案好一個數量級。如果他們的説法是真的,特斯拉已經超越了人工智能硬件和軟件領域的所有人。我對此表示懷疑,但這也是硬件極客的美夢。

我們都要試圖冷靜下來,等一等,看看它什麼時候會實際部署到生產環境中。

華爾街日報:特斯拉如何成為

芯片危機中的大贏家?

在汽車業飽受半導體短缺和全球供應鏈堵塞困擾的一年里,特斯拉(Tesla Inc., TSLA)成為該行業最大的贏家之一。該公司的成功在某種程度上要歸功於其出身於硅谷。

分析師預測顯示,馬斯克(Elon Musk)的這家電動汽車製造公司今年的汽車產量將比2020年增長約80%,有望實現2018年以來最快的年產量增速。根據IHS Markit的數據,在供應鏈中斷的嚴重衝擊之下,全球汽車行業的汽車產量料較去年增長約1%,較2019年減少15%。

業內高管和顧問表示,特斯拉之所以能夠保持生產線運轉,部分原因是依靠該公司的內部軟件工程專業能力,這使特斯拉在適應全球半導體短缺的情況時比其他很多對手車企更遊刃有余。從電機控制到手機充電,芯片的使用無處不在。

例如,該公司的首席執行官馬斯克稱,今年早些時候面對短缺問題時,特斯拉能迅速修改必要軟件,將替代芯片集成到其車輛中。

半導體高管和顧問表示,特斯拉作為一家相對年輕的車企,優勢在於從零開始設計汽車,而不是像許多傳統車企那樣,數十年里一直零敲碎打地增加零部件。其中一些高管和顧問稱,這種優勢使特斯拉有能力整合系統。

貝恩公司(Bain & Co.)對特斯拉2019年款Model 3的研究顯示,在Model 3轎車內,只需一組半導體就可實現揚聲器控制、語音和手勢識別等功能,而在許多別的車型中,這些功能需要採用更多的芯片分別控制方可實現。

半導體供應商Microchip Technology Inc.(MCHP)首席執行官Ganesh Moorthy稱,與傳統車企相比,專注電動汽車的車企更深耕技術領域,因此獲益匪淺。

Moorthy表示:「在許多情況下,這些車企更熱衷於接受新信息,我認為這也是其打造的產品能更加靈活的原因。」

特斯拉沒有回覆關於其芯片採購戰略的置評請求。

傳統的汽車製造商通常會讓零部件供應商負責採購芯片。一些半導體行業高管和分析師表示,馬斯克更喜歡在內部生產汽車零部件,這意味着特斯拉在某些領域的供應鏈更具可見度,在危機爆發前,特斯拉與半導體公司建立了密切的關係。例如,特斯拉設計了一種電腦,使其先進的駕駛員輔助技術能夠應用於新型汽車。

高通公司(Qualcomm Inc., QCOM)負責汽車業務的Nakul Duggal説:「如果他們決定自己製造什麼東西,那麼他們就必須與半導體供應商建立直接關係。」高通是一家芯片設計公司,併爲特斯拉供貨。

芯片短缺可以追溯到2020年底,當時汽車需求從疫情低點反彈的速度快於預期,讓汽車製造商措手不及。

根據諮詢公司AlixPartners LLP的數據,如果沒有足夠的半導體,今年全球汽車廠商或生產大約7,700萬輛汽車,比1月份的預期低約9%。

特斯拉首席財務官Zachary Kirkhorn在10月稱,特斯拉在芯片行業的專業知識以及向供應商持續傳遞信息的做法為該公司應對供應鏈挑戰帶來了幫助。

Kirkhorn對分析師表示:「我們從未向供應商下調產量預期,我們正儘快增加產能。」

特斯拉也沒能倖免於供應鏈問題的衝擊。該公司旗下工廠已開工不足,2月份還曾因零部件短缺而關閉位於加州弗里蒙特的工廠。特斯拉還採取變通辦法應對短缺,據一位知情人士透露,馬斯克讓工人們先製造不安裝部分零部件的汽車,之后再補齊這些零部件。

馬斯克以芯片短缺為由推迟了新車型的推出。外界期待已久的特斯拉電動皮卡和半掛式卡車原定於今年投產,現在分別推后到2022年和2023年。

傳統車企如今正變得更看重芯片技術。上個月,福特汽車公司(Ford Motor Co., F)和通用汽車公司(General Motors Co., GM)都宣佈與半導體公司簽訂了開發計算機芯片的協議。

研究公司Gartner Inc.預測,到2025年,市值最大的10家汽車製造商中將有一半會自己設計至少部分芯片。

高管和律師表示,與此同時,全球對於電動汽車的追捧以及特斯拉不斷上升的市值,已經使馬斯克的特斯拉在一些零部件供應商眼中成為更有價值的客户。

代表汽車部件供應商的底特律地區律師Dan Sharkey表示,他的一些客户樂意為特斯拉做一些他們不願為其他汽車製造商做的事情。Sharkey説:「這些供應商覺得抓住特斯拉就像抓住了一顆冉冉上升的新星。」他説,特斯拉產量相對較小這一點有的時候是對該公司有利的。「因為很容易產生這樣的想法,好吧,我們把這些小規模的訂單處理好就行了。」

特斯拉有望輕松達成自己設定的目標,即總交付量比去年的近50萬輛多出50%。今年頭九個月,特斯拉把627,000多輛汽車交到客户手上。特斯拉的規模相對較小,外加市場對電動汽車的需求升高,使得該公司較容易保持快速增長態勢。特斯拉還把向客户交付汽車作為優先事項,哪怕一些車輛缺少少數幾樣零部件。

現年39歲、居於德國漢堡的Mo Siddiqui表示,本月初他收到來自特斯拉的訊息,被告知受供應鏈問題影響,他購買的價值約7萬美元的Model Y緊湊型SUV可能會在缺少某些USB接口或無線手機充電功能的情況下交付。

Siddiqui可以在提車后兩周內預約車輛升級。他説:「我可以接受這一點。」

*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。

今天是《半導體行業觀察》為您分享的第3107內容,歡迎關注。

推薦閲讀

★臺積電披露未來的研發計劃

★中國大芯片浪潮

★美國芯片製造行業的黃昏

半導體行業觀察

半導體第一垂直媒體

實時 專業 原創 深度

識別二維碼,回覆下方關鍵詞,閲讀更多

晶圓|集成電路|設備|汽車芯片|存儲|臺積電|AI|封裝

回覆投稿,看《如何成為「半導體行業觀察」的一員 》

回覆搜索,還能輕松找到其他你感興趣的文章!

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。