熱門資訊> 正文
2025-10-16 12:49
(來源:機器之心)
今天,谷歌有點忙。
一方面,他們與耶魯大學合作基於 Gemma 研發的 Cell2Sentence-Scale 27B (C2S-Scale) 首次預測了一種新的潛在癌症療法,引發世界廣泛關注。另一方面,他們又更新上線了 Veo 3.1,為用户帶來了大幅提升的視頻生成能力,參閱報道《剛剛,谷歌 Veo 3.1 迎來重大更新,硬剛 Sora 2》。
再一方面,他們又推出了 Coral NPU,可用於構建在低功率設備上持續運行的 AI。具體來説,其可在可穿戴設備上運行小型 Transformer 模型和 LLM,並可通過 IREE 和 TFLM 編譯器支持 TensorFlow、JAX 和 PyTorch。
和前兩個新聞一樣,這也同樣引起了開發者的廣泛熱議。
Coral NPU:一個為邊緣設備打造的全棧開源 AI 平臺
谷歌給 Coral NPU 的定位是「一個全棧、開源的平臺,旨在解決性能、碎片化和隱私這三大核心挑戰,而這些挑戰限制了功能強大、始終在線的 AI 技術在低功耗邊緣設備和可穿戴設備上的應用。」
也就是説,使用 Coral NPU,未來我們有望打造出能在智能手錶等設備上本地持續運行的好用 AI,讓智能直接嵌入到用户的個人環境中。
然而,要做到這一點卻並非易事。谷歌總結了三大方面的挑戰:
性能差距:複雜且先進的機器學習模型需要更多的計算資源,這遠超邊緣設備有限的功率、散熱和內存預算。
碎片化成本:為多樣化的專有處理器編譯和優化機器學習模型既困難又昂貴,這阻礙了跨設備實現一致的性能。
用户信任缺失:要想真正發揮作用,個人 AI 必須優先保障個人數據和情境的隱私與安全。
而谷歌今天推出的 Coral NPU 基於其最初的 Coral 項目,「可為硬件設計者和機器學習開發者提供了構建下一代私密、高效邊緣 AI 設備所需的工具。」
具體來説,Coral NPU 是與 Google Research 和 Google DeepMind 合作設計的成果,乃是一個 AI 優先的硬件架構,可用於支持下一代超低功耗、始終在線的邊緣 AI。
它提供了統一的開發者體驗,使部署環境感知等應用變得更加容易。它專為在可穿戴設備上實現全天候 AI 而設計,同時能最大限度地減少電池消耗,並且可通過適當配置來適應更高性能的應用場景。
谷歌已經發布了相關文檔和工具,以便開發者和設計者可以立即開始構建。
項目主頁:https://developers.google.com/coral
代碼庫:https://github.com/google-coral/coralnpu
技術細節
顧名思義,Coral NPU 採用了 NPU(神經處理單元 /neural processing unit)架構,其為下一代高能效、針對機器學習優化的片上系統 (SoC) 提供了構建模塊。
該架構基於一套符合 RISC-V 指令集架構 (RISC-V ISA) 的 IP 模塊,專為最低功耗而設計,使其成為始終在線的環境感知的理想選擇。
其基礎設計可在僅消耗幾毫瓦功率的情況下,提供 512 GOPS (每秒十億次操作) 級別的性能,從而可為邊緣設備、耳戴式設備、AR 眼鏡和智能手錶帶來強大的端側 AI 能力。
這種基於 RISC-V 的開放且可擴展的架構為 SoC 設計者提供了靈活性,讓他們可以修改基礎設計,或將其用作一個預配置的 NPU。
Coral NPU 架構包含以下組件:
一個標量核心(scalar core): 一個輕量級、可用 C 語言編程的 RISC-V 前端,負責管理流向后端核心的數據流。它採用簡單的「運行到完成」 (run-to-completion) 模型,以實現超低功耗和傳統的 CPU 功能。
一個向量執行單元(vector execution unit): 一個強大的單指令多數據 (SIMD) 協處理器,符合 RISC-V 向量指令集 (RVV) v1.0 規範,能夠對大型數據集進行同步操作。
一個矩陣執行單元(matrix execution unit): 一個高效的量化外積乘積累加 (MAC) 引擎,專為加速神經網絡的基本運算而構建。請注意,該矩陣執行單元仍在開發中,將於今年晚些時候在 GitHub 上發佈。
統一的開發者體驗
Coral NPU 架構是一個簡單的、可用 C 語言編程的目標平臺,可以與 IREE 和 TFLM 等現代編譯器無縫集成。這使得它能夠輕松支持 TensorFlow、JAX 和 PyTorch 等機器學習框架。
Coral NPU 包含一個全面的軟件工具鏈,其中包括針對 TensorFlow 的 TFLM 編譯器等專用解決方案,以及一個通用的 MLIR 編譯器、C 編譯器、自定義內核和一個模擬器。這可為開發者提供了靈活的路徑。
例如,一個來自 JAX 等框架的模型首先會使用 StableHLO 方言 (dialect) 導入為 MLIR 格式。這個中間文件隨后被送入 IREE 編譯器,該編譯器會應用一個硬件特定的插件來識別 Coral NPU 的架構。之后,編譯器會執行漸進式降低 (progressive lowering)—— 這是一個關鍵的優化步驟,在此過程中代碼會通過一系列方言被系統地翻譯,逐步接近機器的本地語言。優化后,工具鏈會生成一個最終的、緊湊的二進制文件,以便在邊緣設備上高效執行。
下表展示了 Coral NPU 的軟件開發優勢:
這套行業標準的開發者工具有助於簡化機器學習模型的編程,並能在各種硬件目標上提供一致的體驗。
Coral NPU 的協同設計過程聚焦於兩個關鍵領域。
首先,該架構能高效加速當今設備端視覺和音頻應用中領先的、基於編碼器的架構。
其次,谷歌正與 Gemma 團隊緊密合作,針對小型 Transformer 模型優化 Coral NPU,以確保該加速器架構能夠支持下一代邊緣生成式 AI。
這種雙重關注意味着 Coral NPU 有望成為首個開放、基於標準、專為將大語言模型 (LLM) 引入可穿戴設備而設計的低功耗 NPU。
對於開發者而言,這可提供一條單一且經過驗證的路徑,可以用最低的功耗和最高的性能來部署當前和未來的模型。
目標應用
Coral NPU 旨在支持超低功耗、始終在線的邊緣 AI 應用,尤其側重於環境感知系統。其主要目標是在可穿戴設備、手機和物聯網 (IoT) 設備上實現全天候的 AI 體驗,同時最大限度地減少電池消耗。
潛在用例包括:
情境感知:檢測用户活動(如步行、跑步)、距離或環境(如室內 / 室外、移動中),以啟用「免打擾」模式或其他情境感知功能。
音頻處理:語音和聲音檢測、關鍵詞識別、實時翻譯、轉錄以及基於音頻的無障礙功能。
圖像處理:人物和物體檢測、面部識別、手勢識別以及低功耗視覺搜索。
用户交互: 通過手勢、音頻提示或其他傳感器驅動的輸入進行設備控制。
硬件強制的隱私保護
Coral NPU 的一個核心原則是通過硬件強制的安全性來建立用户信任。
谷歌表示:「我們的架構正在被設計用來支持 CHERI 等新興技術,該技術提供細粒度的內存級安全和可擴展的軟件分區。我們希望通過這種方法,將敏感的 AI 模型和個人數據隔離在硬件強制的沙箱中,以抵禦基於內存的攻擊。」
構建生態系統
開源硬件項目的成功依賴於強大的合作伙伴關係。
為此,谷歌宣佈了與 Synaptics 的合作關係,這也是其「第一個戰略芯片合作伙伴」,同時也是物聯網領域嵌入式計算、無線連接和多模態傳感的領導者。
今天,Synaptics 在其技術日活動上宣佈了其新的 Astra SL2610 系列 AI 原生物聯網處理器。該產品線採用了他們的 Torq NPU 子系統,這是業界首個 Coral NPU 架構的量產實現。該 NPU 的設計支持 Transformer 並支持動態算子,使開發者能夠為消費和工業物聯網構建面向未來的邊緣 AI 系統。
結語
谷歌表示 Coral NPU 有望「解決邊緣計算的核心危機」:「藉助 Coral NPU,我們正在為個人 AI 的未來構建一個基礎層。我們的目標是通過提供一個通用的、開源的、安全的平臺供業界在此基礎上發展,從而催生出一個充滿活力的生態系統。」
對此,你怎麼看?有興趣嘗試基於這個平臺進行開發嗎?
參考鏈接
https://x.com/GoogleResearch/status/1978449643437539378
https://research.google/blog/coral-npu-a-full-stack-platform-for-edge-ai