繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

華泰聯合研究 | 人形機器人:等待「Scaling Law」時刻

2025-09-15 08:59

(來源:華泰證券科技研究)

827-28日我們組織了2025秋季策略會,人形機器人論壇上討論了機器人的「Scaling Law」時刻、本體在工業場景落地的應用前景和解決方案、以及機器人開放平臺的必要

核心亮點:

1、目前機器人處於產業趨勢投資前期,我們認為初期訂單數並不構成關鍵信號,核心在於能否解決人形機器人核心卡點:1)硬件成本高、結構複雜且未定型;2)大腦不夠智能。硬件層面,以國內製造業企業大規模入場為基礎,伴隨特斯拉Optimus 3后續發佈,硬件成本非線性下降和定型或快速突破。而軟件層面,當前模型範式向雙系統分層VLA收斂,但尚未出現機器人大腦的「ChatGPT」時刻。我們認為后續需重點關注機器人的大腦「Scaling Law」的智能涌現,有望真正意義上推動人形機器人的正向飛輪啟動,產業開啟非線性提速。若機器人在多個垂直場景出現持續性需求,有望加強市場對遠期市場空間的信心和認可度,從而跳脫出「邊際變化」+「百萬台終局估值法」的投資範式。

2、大小腦路線是目前機器人大模型工程落地的主流。我們認為在幾大機器人模型中:1)非端到端模塊化模型借清晰鏈路與低成本攻佔垂直場景,但由於其規則剛性,難以泛化。2)端到端VLA依賴海量數據,性能上限最高,但受制於訓練技術、硬件儲備、實時與可控門檻牽制。3)大小腦路線:將預訓練大模型用作「思考」系統,以輕量控制的小模型完成思考到動作的「反射」,是考慮當前有限算力、任務成功率、數據效率、實時性、可解釋性等要求下的最均衡的工程路徑。國內目前愈發注重具身智能大模型的開發,行業重要參與者包括專注具身智能模型範式開發和迭代的企業(本體公司、和專注具身智能大模型開發的企業),也包括開發平臺化企業,牽頭打造機器人行業軟硬件生態平臺。目前國內具身大模型企業逐步收穫融資青睞。

3、我們認為機器人落地場景率先在科研、教育、導覽、展示表演等ToG場景。目前頭部人形機器人廠商可在ToB工業製造場景執行相對簡單且重複性的勞動,隨着產業泛化能力提高,B端場景成為機器人商業化深水區的第一站。以服裝製造為例,全球服裝縫紉工人約6,000萬人,存在工作時長、薪資帶來的招工困難等問題,過去工業機器人在服裝製造業應用較少,原因在於服裝面料柔性、工藝非標、款式更新快,傳統自動化編程的模式難以匹配。近年來大模型快速發展,端到端架構擺脫了編程過程,使得后續許多非標勞動替代成為可能。

風險提示:大模型進度不及預期;國產化降本不及預期;貿易政策變化風險。

核心觀點:在2025年6月6日發佈的《2025年中期策略會速遞——人形機器人論壇:產業化步入深水區》中,我們深度覆盤了2022年以來人形機器人的行情。我們發現伴隨產業進度不斷加快,市場至今已深度認可人形機器人的遠期賽道空間。從2022年特斯拉進軍人形機器人賽道開始,行情經歷過幾輪起伏,但均是以龍頭的機器人進展公佈和更新催化帶動的主題行情。而從4Q24開始,隨着特斯拉以及國內機器人公司開啟初步量產,市場已提前計價其滲透率躍升預期,疊加顯著的預期前置效應,推動行情快速跨越純主題階段,當前我們將其定位為產業趨勢投資前期。

從早期的純主題行情向趨勢行情切換,我們認為底層邏輯在於產業進度不斷加快,加強了市場對人形機器人的遠期市場空間的信心和認可度。2024年底-2025年初,機器人行情演繹的核心產業本質在於:機器人產業開始邁入實際小批量生產階段。然而由於目前機器人大腦尚未體現出明顯的智能能力,初步的量產需求更多來自於應用和測試等探索目的,訂單需求持續性有待觀察。

產業趨勢上看,目前人形機器人的卡點在於:1)硬件的降本和非標化;2)大腦的智能。我們認為隨着今年開始中國產業鏈公司大規模佈局人形機器人賽道,以投資、併購等多種方式進行業務拓展,中國製造業企業入場有望帶來硬件成本非線性下降,硬件的卡點或不是核心難題。更重要的在於AI賦能下的機器人大模型創新,大腦有望跟隨AI的「Scaling Law」範式實現智能泛化,有望真正開啟產業趨勢的提速。我們認為,若機器人行情想要復刻歷史新能源車、智能手機等新興智能終端的產業投資趨勢,初步信號或在於形成了較成熟的硬件方案並開始在簡單工業場景和特種應用場景落地(具備初步的泛化能力),初步信號或有望在未來兩年出現。重點關注國外特斯拉和Figure、包括國內頭部企業帶來的機器人大腦「Scaling Law」進展。

機器人的「Scaling Law」或開啟產業新一輪浪潮

隨着AI進入推理時代,大模型誕生思維鏈等能力,有望開啟端側產品的新一輪改造和創新周期。在眾多端側產品當中,相較於音響、眼鏡、相機、手機、PC等,機器人是不僅需要大語言模型賦能,更需具備自主移動或行動能力的具身智能載體。但由於人形機器人硬件結構新穎、複雜且未定型,需要AI大模型改造的創新周期也相對更長。

卡點,硬件方案成本高,未收斂且缺乏標準。目前特斯拉機器人的BOM依舊較高,根據特斯拉AI Day,特斯拉機器人目標未來降至2萬美金/台,關節模組、靈巧手、六維力等高價值量環節是降本核心。而各家人形機器人廠商在關節執行器、靈巧手、傳感器的方案各不相同,如行星滾柱絲槓直線關節方案、微型絲槓/連桿/繩驅手部方案、軸向磁通/無框力矩電機電機、減速器等成為技術差異化的競爭點。

卡點二:軟件缺乏強大的模型表徵能力+高質量大規模數據。軟件需要強大的模型表徵能力+大規模高質量的數據(高效收集真實場景且對於算法模型有用的數據)。大腦泛化依賴數據以及小腦運控和硬件耦合,而機器人運動和操作的數據模態更復雜,需要從頭開始定義數據,還要在真實環境里長期、大規模採集。大模型前,大腦的任務定義、拆解和運動代碼生成是工程師做的,感知決策大模型將複雜的任務分解為一系列動作指令,交由操作大模型逐一執行;小腦算法是基於模型預觀控制(MPC)和基於動力學模型的下層全身關節力控(WBC)為主。大模型后,趨向仿真/真實環境中強化學習+模仿學習。軟件迭代缺乏高質量、低成本、大規模的數據集,但採數難點在於數據採集成本高、數據泛化難度大、專用場景數據缺失、缺乏統一的數據標準。

人形機器人實現創收與出貨難度不大,關鍵是難在批量化生產和大規模落地實際應用。2025年以特斯拉為代表的頭部人形機器人在特定場景實現了小批量量產和初步商業化,國內已有多家人形機器人本體企業宣佈完成交付百台至千台。但深究交付場景,目前除了少數頭部企業外,全球真正實現雙足人形機器人商業閉環的公司較為稀缺,商業化交付走在前列的企業大多在小數量戰略合作、數據採集、展示表演場景,雖短期創收可觀,但訂單持續性或有待觀察。同時在當前數據採集、科研科教、展示表演等出貨量較大的場景中,多為科研和場景訓練等對泛化能力要求不高的需求,採購方在本體基礎上進行算法研發,而本體公司更側重於硬件賣鏟人角色,並沒有在軟件層面實現技術突破。

因此,我們認為產業初期交付訂單數並非關鍵指標,核心仍在於能否初步形成正確模型範式和數據飛輪。我們認為人形機器人的正向飛輪應為:大腦初步泛化→量產場景打開→硬件規模化降本→數據採集量提升→模型訓練加強→Scaling Law望體現帶來大腦更加智能→進一步打開需求。我們目前觀察到,頭部人形機器人企業一方面開始落地VLA大模型,另一方面已經在一些對精度和作業能力要求相對較高的工業廠家做探索,進行真實數據的採集和模型的訓練。

產業趨勢上看,美國公司特斯拉和Figure等,包括國內頭部企業引領機器人大模型創新方向,大腦智能隨着AI的「Scaling Law」範式有望實現非線性提速;中國產業鏈公司大規模佈局人形機器人賽道,以投資、併購等多種方式進行業務拓展,國內製造業企業入場有望帶來硬件成本非線性下降。隨着軟硬件迭代加速,人形機器人有望正式開啟產業趨勢的提速,類似於處於應用前期的智能手機、新能源汽車等大賽道,隨着功能逐步完備和需求刺激,有希望在未來幾年帶來需求的非線性增長。

從模塊化到端到端VLA,機器人大模型或趨近收斂

機器人大模型沿着模塊化到端到端路徑發展,VLA或將在產業界趨近收斂。隨着大語言模型(LLM)以及多模態大語言模型(MLLM)的進步,利用其能力來實現機器人的任務規劃和運動控制變得更加可行。覆盤學術界和產業界的機器人大模發展,我們認為主要分為3條技術路線:非端到端的模塊化模型、端到端VLA模型和雙系統分層VLA模型。

雙系統分層VLA模型:產業界的主流選擇

雙系統分層VLA模型或是當下產業界的首選架構,Figure Helix等是典型代表。雙系統分層VLA模型依然在VLA範疇內,採用異構模塊(大模型對應大腦,小模型對應小腦)分工的架構,以結合大模型的認知能力和小模型的實時控制能力。Figure、智元機器人、Nvidia和Google均在大小腦結合的VLA模型上有建樹,推動產業落地。

Figure HelixVLA由快慢兩個系統組成,類似人類的大腦和小腦。2025年2月,Figure發佈了第一個對整個人形上半身(包括手腕、軀干、頭部和單個手指)進行高速連續控制的VLA——Helix,具有良好的泛化能力,支持端側運行。VLM主干是通用的,但不是快速的,而機器人視覺運動策略是快速的,但不是通用的,Helix則通過兩個互補的系統來解決這種權衡。Helix經過完全端到端訓練,從原始像素和文本命令映射到具有標準迴歸損失的連續動作,只有單個訓練階段和一組神經網絡權重。

1)慢系統也叫系統2(S2),是經過互聯網數據預訓練的端側VLM-7B,以7-9Hz的頻率運行,用於場景理解和語言理解,實現跨對象和上下文的廣泛泛化。系統2可以使用開源的VLM,基於互聯網規模的數據進行預訓練,將機器人圖像和機器人狀態信息(包括手腕姿勢和手指位置)投影到視覺語言嵌入空間后對其進行處理。VLM處理來自機載機器人攝像頭的分段視頻剪輯,並提示(prompt):「你會給機器人什麼指令來讓這個視頻中的動作出現?」結合指定所需行為的自然語言命令,S2將所有語義任務相關信息提取到一個連續的潛在向量中,傳遞給S1以調節其低級別動作。

2)快系統也叫系統1(S1),是一個80M參數交叉注意力編碼器-解碼器Transformer,用於處理低級別控制,其預訓練完全在仿真環境中進行。S1本質是一種快速反應性視覺-運動(visuomotor)策略。來自S2的潛在向量被投射到S1的token空間中,並與來自S1視覺主干的視覺特徵沿序列維度連接,提供任務調節。S1以200Hz的頻率輸出完整的上半身人形控制,包括所需的手腕姿勢、手指屈曲和外展控制,以及軀干和頭部方向目標。

大小腦路線是目前機器人大模型工程落地的主流,端到端VLA機器人通用AGI的遠景我們認為,非端到端模塊化模型借清晰鏈路與低成本攻佔垂直場景,但由於其規則剛性,難以泛化到開放任務。端到端VLA依賴海量數據,性能上限最高,但受制於訓練技術、硬件儲備、實時與可控門檻牽制。相比較而言,大小腦將預訓練大模型用作「思考」系統,以輕量控制的小模型完成思考到動作的「反射」,在有限數據與算力下較好實現任務成功率、數據效率、實時性等要求,並保留可解釋接口,因而成為當下最均衡的工程路徑。若未來算力芯片效率/功耗持續優化、低成本大規模機器人數據生成被實現、大模型可解釋技術得到突破,從第一性原理出發,端到端VLA或許依然是最優選擇,能夠最大程度實現跨場景泛化,而大小腦則充當橋樑,引導產業穩步過渡。

產業開始加大力度專注具身智能大模型開發

國內資本開始從硬件本體涌向具身智能大模型。作為通用機器人技術核心的具身智能算法即大模型,早期國內重視程度不如國外,本體廠商更受資本青睞,佔據具身智能賽道絕大多數融資份額,科技大廠多是推出非具身智能大模型,對具身智能大模型研發投入有限。國外科技大廠對具身智能大模型重視程度高,入局時間早(如谷歌、英偉達等;谷歌已完成多次技術迭代,從Saycan到RT-H),具身智能大模型初創企業備受資本青睞,如SKid AI成立一年,於2024年7月完成3億美元融資,投后估值達到15億美元;Phvsical inteligence成立一個月,完成7000萬美元融資,於2024年11月完成4億美元融資,投后估值約24億美元;Covariant高管於2024年8月起陸續被亞馬遜僱傭(「人才收購」)。國內具身大模型賽道企業在2024年迎來融資潮流,2024年下半年以來多家俱身智能大模型初創企業如千尋智能、穹徹智能等均獲得億級人民幣融資敲定。

后續軟件方向的重要參與者,除了專注具身智能模型範式開發和迭代的企業(包括本體公司、以及專注具身智能大模型開發的企業),我們認為也離不開做平臺化能力的企業。機器人開發門檻高、選型匹配難、多機協同調度及軟件使用難是軟件開發和工程化落地過程中的普遍門檻。典型難度如:1)眾多視覺感知零部件選型眾多,涉及激光/視覺SLAM算法各不相同;2)很多應用場景缺乏落地數據和生態鏈工具。部分企業如仙工智能,以機器人控制器作為切入,做「機器人大腦」的開發平臺,合作多個下游本體和零部件廠商,為機器人具身智能大模型搭建了開發平臺,節省了重複工作的時間、提升行業開發效率。

商業化:多元應用場景逐步出現

我們認為機器人落地場景率先在科研、教育、導覽、展示表演等ToG場景,中期落地ToB景,是雙足機器人商業化深水區的第一站,遠期再落地ToC場景商業化,ToC市場空間大、非標程度高,或是人形機器人的終極市場。從落地難度和市場規模排序看,To C >To B >To G

①ToG:科研院校此類ToG場景落地難度較低,科研院校採購機器人更多出於科研和場景訓練,對泛化能力要求不高,本體公司不需實現軟件層的技術突破,但可較快落地少量交付訂單,目前已成為諸多創企優先切入的場景(基於先發和生產能力優勢,國內宇樹科技旗下Unitree H1已成為全球科研院校和AI公司優選產品,24H2公司已全球發貨)。目前本體價格在持續下探,如眾擎SA01售價4.2萬元、松延動力N2售價3.99萬元,宇樹R1售價3.99萬元。

②ToB:目前頭部人形機器人廠商可在ToB工業製造場景執行相對簡單且重複性的勞動,此類場景任務相對固定、場景屬於半開放狀態,機器人需具備一定的泛化能力。目前率先落地商業化的Agility Robotics,其Digit在工廠中執行任務包括從AMR 上拾取手提袋,再將手提袋放到傳送帶。我們認為隨着產業泛化能力提高,B端如紡織、工業製造、汽車智能製造、倉儲物流、安防巡檢等結構化場景或成為機器人商業化深水區的第一站。

③ToC:ToC對人形機器人泛化要求更高,該場景存在較多干擾項且場景複雜,且不同羣體不同需求對機器人的適配性要求高,因而對模型訓練的泛化能力要求更高。

任務執行從標準化邁向非標化,商業化機會從聚焦垂類場景走向半通用場景。B端有望成為商業化深水區的第一站:一是需求側,若算法規劃、多模態感知及任務調度能力逐步積累,機器人持續拓展非標任務能力,B端剛需替代空間或優先釋放,形成產業早期放量基礎;二是成本側,隨着本體廠潛在需求釋放、向供應鏈下達訂單,硬件製造釋放規模效應可助推機器人制造成本進一步下探,從而進一步提升機器人滲透率。我們認為,2030年前后B端應用有望進入裝配、分揀、質檢、柔性搬運等生產環節,C端預計先在安全看護、護理輔助與家務協作等需求明確、高頻剛需場景落地,2035年前后,機器人在B端有望與AGV、機械臂等自動化系統形成柔性產線協同體系,在C端的複雜家庭環境逐步應用,部分高危環境作業場景也將進入全流程機器人化階段。

場景:服裝製造人形機器人應用大有可為,龍頭企業產品規劃清晰

全球服裝製造年人工開支達萬億,AI發展使其機器替代成為可能。根據縫製機械協會過去8年我國工業縫紉機內需+外銷合計約5700萬台,意味着全球工縫保有量近6000萬台,假設按照人機比1:1的比例推算,對應目前全球縫紉工人數量在6000萬人左右,按3~4萬/年的人均薪酬估算,服裝製造業年人工開支在萬億人民幣量級,而工業縫紉機設備市場規模僅在百億量級,意味着機器替代空間仍很大。雖然用工規模很大,但過去工業機器人在服裝製造業應用較少,原因在於服裝面料柔性、工藝非標、款式更新快,傳統自動化編程的模式難以匹配。近年來大模型快速發展,其端到端的架構擺脫了編程過程,使得許多非標勞動的替代成為可能。

人形機器人與傳統自動化有機結合,服裝製造無人化行將致遠。與傳統工業機器人相比,AI雖然使得人形機器人具備一定泛化能力,但在最后一公里的精度控制/成功率上目前仍存在侷限。以傑克科技在服裝製造無人化的佈局為例,對於服裝製造工藝中如貼袋等較為複雜的A/B類工藝,公司先通過自動縫製單元、模板機等自動化產品實現去技能化,同時增強模板技術的柔性以拓寬模板機的使用場景,最后用人形機器人產品執行縫製以外剩下的上下料勞動。目前公司人形機器人夾爪已能從多層面料中準確分離單層面料,解決了面料抓取難題。公司自主人形機器人已完成產品原型開發,擬加快其在服裝產業的批量化應用。

1) 技術進度不及預期。人形機器人技術涉及軟件與硬件,硬件涉及各類核心部件的製造工藝,軟件涉及機器人大腦小腦算法,若機器人軟件硬件的技術進度不及預期,則會影響其商業化進度和遠期市場空間,進而影響市場對機器人出貨量和出貨時間的預期,會有下調供應鏈的利潤空間和估值水平的風險。

2) 國產化降本進度不及預期。人形機器人商業化進度與製造成本緊密相關,而機器人規模量產依賴於核心硬件國產化,若國產化降本進度不及預期,則會影響機器人的市場空間和出貨水平,或影響賽道的估值水平。

3) 貿易政策變化不及預期。人形機器人降本以來國產供應鏈,若貿易政策出現加徵關税等不確定事件,則會影響本土硬件的性價比優勢,進而影響國產供應鏈在全球機器人市場的份額。

研報:《2025年秋季策略會速遞——人形機器人:等待「Scaling Law」時刻》2025年9月1日

謝春生 分析師 S0570519080006 | BQZ938

倪正洋 分析師 S0570522100004 | BTM566

宋亭亭 分析師 S0570522110001 | BTK945

湯仕翯 分析師 S0570524090007 | BUQ838

楊任重 分析師 S0570522110003 | BUM664

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。