什麼是MLPerf？解讀最重要的AI基準測試

2025-04-16 15:35

基於真實環境的AI測試不斷演進，促使英特爾技術專家順應行業需求，持續提升產品性能，進而營造更友好的發展環境，推動AI技術的普及。

MLPerf大家可能都略有耳聞，但又未必完全瞭解這項AI基準測試。雖然沒能找到這個詞本身的明確定義，但利用AI助手，我們得到了一個值得信賴的答案：MLPerf在2018年5月首次出現時被比作是為「SPEC for ML」。AI助手繼續寫道：「‘MLPerf’是一個合成詞，由‘ML’（代表機器學習）和‘Perf’（代表性能）組合而成。」

它進一步解釋説：「雖然沒有關於命名過程的詳細官方説明，但名稱本身就非常直觀，之所以被選中，可能是因為它直接體現了基準測試的目的。」（這個解釋也很貼合大家對AI生成的答案的預期，這些AI由研究人員所構建並不斷改進）

實際結果證明了這一點：就在上周，英特爾是唯一一家持續向MLPerf提交服務器CPU測試結果的廠商。提交的結果中包括了使用英特爾®至強® 6處理器進行圖像檢測和信息分析等常見的AI任務。

加速AI發展背后的組織與流程

英特爾數據中心和人工智能事業部軟件部門的Ramesh Chukka表示：「MLPerf是目前AI領域首屈一指的基準測試。」

Chukka代表英特爾擔任MLCommons委員會成員，該聯盟成立於2020年底，目標是將最初的MLPerf工作範疇擴展到「推動開發最新的AI和機器學習數據集和模型、最佳實踐、基準和指標，並讓使用更加便捷」。

Chukka認為，MLPerf可以泛指所有的基準測試，這些基準測試「像技術的發展一樣，處於快速演進中」，從而通過「快速構建新的AI技術原型」來實現推動該領域發展的目標。每個基準測試都衡量了在一定的質量水平下，完成特定AI任務的速度。

這些基準測試分為兩大類：一是訓練，即使用數據構建AI模型；二是推理，即讓AI模型像應用程序一樣運行起來。用大語言模型（LLM）來類比：訓練是指LLM從海量信息中學習的過程，而推理則是你每次安排它執行任務的時候。

MLCommons每年針對訓練和推理兩大類目分別發佈兩組基準測試結果。英特爾最近一次公佈訓練結果是在去年6月，而最新的推理結果則是在本月剛剛發佈。

從MLPerf創立之初，再到之后的MLCommons，英特爾AI專家一直積極參與並貢獻測試結果。英特爾從兩方面參與其中：幫助塑造和推動整個項目的發展，同時使用英特爾的處理器、加速器和解決方案進行編譯並提交基準測試結果。

MLPerf基準測試所解決的問題

AI模型是複雜的程序，現在越來越多種類的計算機能夠運行這些模型。通過MLPerf基準測試，不僅能夠更好地對比不同種類的計算機，同時也可以推動研究人員和企業進一步探索前沿技術。

每個基準測試都會盡可能貼近實際應用場景，而其結果則分為兩個類別。其中，「封閉」類別對AI模型和軟件堆棧進行嚴格控制，以儘可能精準地進行硬件比較，即在不同的系統中，使用相同的程序來實現相同的結果，如自然語言處理的準確率測試。

「開放」類別則包含創新因素，即讓每個系統在實現相同目標的前提下，儘可能地突破性能極限。

值得注意的是，MLPerf將所有內容共享，且基準測試是開源的。測試結果需要是可復現的，無隱藏信息。正是這種開源開放的特性，能夠讓廠商進行更全面的比較，而不僅僅是單純的速度對比。比如，廠商也可以從每瓦性能，或成本等維度進行對比。

MLPerf的運行及演進過程

正如Chukka所説，MLPerf之所以廣受業界認可，部分原因在於它不斷演進並持續增加新的基準測試。其演進過程主要是由MLCommons社區的公開討論和辯論驅動的，而諸多大型企業、初創公司和學術界等均是該社區的參與者。

首先，新的基準測試會被提出並進行辯論，隨后獲批的基準測試需要一個公開的數據集用於訓練。其中需要注意的是，該數據集可能已經存在，也可能需要重新創建。其次，參與者自願組隊，共同構建基準測試、確定或收集數據，併爲基準測試的發佈設定時間表。

最后，任何希望發佈測試結果的公司都需要在截止日期前提交成果。如果錯過該截止日期，則只能等待下一輪流程重新開啟。

更快速、更高效的AI塑造世界的未來

當越來越多的人藉助半導體技術攻克各類難題時，對於英特爾而言，無疑在宏觀層面帶來了顯著的積極影響，然而，英特爾參與MLPerf基準測試，有着更為深遠的意義。

英特爾一直在為AI開源框架貢獻力量，如PyTorch及其擴展。當英特爾工程師努力優化代碼以提升MLPerf的運行效率時，那些在英特爾芯片上部署相關AI應用的用户，無需任何額外操作，便能輕松受益於這些技術進步。

Chukka表示，「對於新的基準測試，我們也一直在探索可行的優化方案，並積極準備后續的提交工作。」

爲了實現更出色的測試結果，Chukka團隊匯集公司各方力量，在多輪測試中取得了出色的性能提升，例如，在2024年的測試結果中，推薦系統推理性能提升了80%，又如在本月的測試結果中，GPT-J基準測試性能提升了22%。

因此，當英特爾發佈新一輪MLPerf測試結果時，往往也代表着整體AI系統都變得更快速、更高效，甚至時下熱門的大模型，也能在響應用户新的需求時，給出更迅速、更智能的解答。

註釋：

性能因使用情況、配置和其他因素而異。欲瞭解更多信息，請訪問網站www.Intel.com/PerformanceIndex。

性能結果基於截至配置中所示日期的測試，可能不反映所有公開可用的更新。欲瞭解更多信息，請訪問MLCommons官方網站。沒有任何產品或組件是絕對安全的。

什麼是MLPerf？解讀最重要的AI基準測試

推薦文章

美股機會日報 | 今晚11點！特朗普將親自「加冕」美聯儲新主席沃什；英偉達Vera Rubin機架售價狂飆！產業鏈所有組件迎漲價熱潮

一周財經日曆 | 壓軸登場！小米、拼多多等重磅財報來襲；深演智能、雲英谷科技等新股下周上市；港美股下周一休市一日

SpaceX在發現多項問題后推迟「星艦」第12次試飛

華盛早報 | 沃什今晚11點宣誓就職美聯儲主席！雷軍稱未來兩年內存或持續漲價；Q1恆指季檢結果今晚公佈

特朗普再威脅伊朗交出濃縮鈾！稱到手后或銷燬

美股機會日報 | 伊朗稱高濃縮鈾不得運往國外；特朗普再出手！美國政府20億美元佈局量子計算；SpaceX正式遞表衝刺納斯達克

一圖看懂 | 連續兩季盈利！蔚來Q1經營利潤0.66億元，交付量超8萬輛；毛利率創近四年新高

SpaceX更多IPO細節披露：去年虧損49億美元，馬斯克掌握85%投票權，股票分階段解禁