繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

當臺積電把人形機器人寫進財報:芯片側的「明牌」與數據側的「暗戰」

2026-05-07 19:52

4月底,在臺積電2026北美技術研討會上,這家半導體行業的霸主用了很大的篇幅,描繪了一個迄今還沒有完全定型的產業:人形機器人。

臺積電給出了一個極其精準的產業定義:

人形機器人 = Agentic AI(智能體AI) + Physical AI(物理AI)

這從側面印證了一個宏大的趨勢:AI正在完成一次歷史性的躍遷,從「理解世界」,走向「參與世界」。

此前,臺積電曾系統性地把人形機器人拆解為四個技術象限:大腦(Brain)、感知(Sensing)、運動(Movement)、電力(Power)。每一個象限都對應着一組具體的芯片體系:AP、連接芯片、傳感器、MCU、PMIC…它們共同拼湊出了一張完整的硅基路線圖。

臺積電計劃在未來三年內,將與人形機器人芯片相關的產能擴大兩倍。這意味着,具身智能將第一次在芯片巨頭的財報上,變現為真金白銀。

至此,硬件側的故事已經清清楚楚。路線圖已經畫好,財報已經開出,三年翻倍已經是寫在董事會決議里的鐵律。

但有一個致命的問題,至今沒有人正面回答:誰來「餵飽」這些芯片?

當全球每年250萬顆機器人級芯片正在被排進臺積電的產線,當每一顆AP、MCU、PMIC都在等待被賦予「靈魂」時,產業界突然意識到一個殘酷的現實:硬件這條腿正在以指數級速度邁出,而數據這條腿,還停留在兩年前。

這就是2026年具身智能產業最大的「剪刀差」。

硬件側的明牌已基本落定。但真正決定2026到2030年產業終局的,是一張迄今鮮有公司敢説自己已經看透的暗牌:數據。

文本大模型的訓練語料以百億小時計,而目前具身智能高質量數據的全行業存量,僅有約50萬小時。從50萬小時到100億小時,是2萬倍的擴張。這不是一個普通的市場機會,這是一條國運級的賽道。

而在這張暗牌的背面,最有意思的故事正在發生。一場由國家數據局、地方政府、產業巨頭和VC共同捲入的、規模空前的數據基礎設施暗戰,已經悄然打響。

硬件已「明牌」:四象限框架反推出的數據缺口圖譜

過去,關於人形機器人的討論幾乎都被一個個關於場景的執念所佔據:能不能后空翻?能不能走樓梯?能不能練武術?似乎只有動起來,纔有人買單。

但如果把視野從產業焦點拉回到臺積電的那張芯片圖譜,我們會發現一個反直覺的事實:四個象限里被討論得最熱的那一個,恰恰是技術壁壘相對最低的那一個。

大腦:對應AP和AI加速器,需要意圖理解與長程規劃數據,目前幾乎空白。

感知:對應CIS、MEMS、6D力矩、觸覺傳感器,需要視覺、聽覺、力覺、觸覺、本體感知五維以上的融合數據,但產業90%的精力卻只停留在RGB視覺。

運動:對應MCU和伺服,需要軌跡和力反饋數據,這是當下討論的絕對中心。

電力:對應PMIC和BMS,需要能耗-動作耦合數據,同樣幾乎空白。

四個象限里,有三個都尚未真正建立起系統性的採集體系。

其中,尤其值得追問的是感知象限。臺積電的傳感器清單暗示,機器人的數據感官至少是六維以上的。但今天產業採集的數據是幾維的?兩維到三維。絕大多數企業仍停留在「RGB視頻+動作標籤」的初級階段,少數前沿玩家引入了VLA(視覺-語言-動作)模型,但距離真正的高維多模態,中間還隔着至少兩個量級的鴻溝。

這個差距不是工程問題,而是認知問題。

互聯網巨頭帶着做大模型的「肌肉記憶」殺進具身智能,他們最擅長採集視頻、處理圖像。但人類在做精細動作時,比如擰螺絲、剝雞蛋、穿針引線…絕大部分關鍵信息根本不來自眼睛,而是來自指尖的壓力、手腕的力矩、整條手臂的本體感受。這些信息一旦缺失,再聰明的VLA模型也只是在「表演」,而非「干活」。

所以,互聯網巨頭採集的「機器人數據」,在「感知」象限里只解決了10%的問題。

剩下90%的力覺、觸覺、本體感知、能耗-動作耦合,根本沒有規模化採集的現成路徑。

這不是數據「多不多」的問題,而是數據「對不對」的問題。

而在中國,已經有一小批玩家開始悄悄打這三張暗牌。他們的故事,要從當下籠罩產業的五個認知誤區説起。

數據迷霧:五大認知誤區正在誤導整個產業

誤區一:把具身智能數據等同於視頻數據。

這是最流行的偷懶答案:既然大模型是靠語料堆出來的,那機器人靠視頻繼續堆就行了。但互聯網視頻是「觀察者視角」,具身智能需要的是「第一人稱+多模態行動數據」。文本大模型只需要「知識」,具身大模型需要的是「經驗」,而經驗里必須包含「做錯並被糾正」的過程數據。看一萬小時的烹飪視頻,AI也學不會切菜時握刀的最佳力度。

誤區二:相信仿真+世界模型可以徹底替代真實。

從仿真到現實的鴻溝,不是工程問題,而是物理本質問題,一度電的電壓波動、地面摩擦係數的微小變化、皮革表面的細微紋理,都可能讓仿真環境里完美運行的算法,在真實世界里立刻翻車。真實、仿真、視頻三種數據的最優配比,將成為接下來幾年各家模型公司最不願公開的核心機密。

誤區三:把數據採集成本等同於設備成本。

有研究機構曾經給出一個統計數字:一個訓練師每天工作8小時,最終能用的數據只有兩三個小時;機器人學會「拿杯子」這一個動作,就需要上千小時的數據積累。這意味着行業當前的數據良品率,大致只有25%到37%。真正的成本不在採集設備,而在標註、驗證和技能抽象化。一個能把良品率從30%推到70%的玩家,將直接擁有2到3倍的成本優勢,這是被嚴重低估的機會。

誤區四:把靈巧手數據等同於普通的機器人數據。

普通機器人數據側重場景廣度和導航避障,而靈巧手數據要求高維度、多模態、強時序,必須融合姿態、力覺、觸覺等多種信息。目前,優質靈巧手數據的供給量不足實際產業化需求的10%。這不是產能問題,而是結構性稀缺。人形機器人60%的商業價值,恰恰取決於手能不能干活。靈巧手數據的採集成本是腿部數據的5到10倍,但產業當下大量企業都在採集移動數據「佔山頭」,真正卡脖子的環節反而缺乏系統性投入。

誤區五(最隱蔽的誤區):把數據當成消耗品,而不是資產。

在絕大多數企業的財務模型里,數據採集是訓練階段的一次性支出,訓練完模型,數據就被歸檔遺忘。但真正決定長期競爭力的,是這些數據能否沉澱為可複用、可流通、可標準化的高質量數據集,反覆餵養下一代模型、遷移到新的本體、共享給生態夥伴。一旦產業開始把數據視作「資產」,底層邏輯就徹底變了。因為資產是需要基礎設施來承載、確權和流通的。

而這,正是「國家隊」入場的根本理由。

國家入場:從「市場失靈」到「基礎設施化」的演進

數據一旦躍升爲「資產」,就必然呼喚一套極其厚重的底層基建來承載:確權、定價、流通、安全、標準,缺一不可。這套宏大的系統工程,註定超出了任何單體企業的承載極限,必須由國家力量來鋪設「高速公路」。

就在4月28日,工信部與國家數據局聯合印發了《關於聯合實施2026年「模數共振」行動的通知》。但若追本溯源,這場「模數共振」的發令槍,早在2024年12月便已悄然扣動。

彼時,國家發改委與國家數據局等部門聯合發文,首次將「高質量數據集」的戰略地位推上臺面。歷經一年多的沉澱,如今政策端釋放出了極強的「實操」信號:2026年不僅將密集出臺30余項數據領域國家標準,更要在智能體、具身智能等前沿無人區完成深度佈局。

緊隨其后的是工信部與國家數據局的聯合行動方案:到2026年底,基本形成「數據-模型-場景應用」良性互促的循環,鼓勵「模數共振」空間與國家數據基礎設施互聯互通。

「模數共振」四個字很值得品味,它意味着國家正式把「模型」與「數據」並列為新基建的兩塊基石。

最高規格的背書則來自「十五五」規劃綱要:建設高質量數據集,培育發展具身智能、腦機接口、6G等未來產業。在這里,具身智能不再是配角,而是與6G並列的國家級未來產業。

如果説政策是上層建築,物理基礎設施已經在20多個城市拔地而起。

北京亦莊落地了國家地方共建具身智能機器人創新中心,整個區域已集聚機器人和智能製造生態企業300余家;上海2025年8月發佈的《具身智能產業發展實施方案》明確提出,到2027年核心產業規模突破500億元;張江搭建了全國首個異構人形機器人訓練場,目標年內沉澱1000萬條高質量具身數據集;天津帕西尼超級數據工廠佔地12000平方米,年產近2億條高維訓練數據。

一支由國資與地方政府聯合搭建的數據採集軍團,正在用標準化、規模化的方式,開採具身智能時代的「原油」。

具身數據的特殊性在於,它不像政務數據是存量資產,它需要實時增量採集的動態交互。這意味着,商業層和國家層最有可能形成的不是替代關係,而是分工關係:國家做通識數據集的底座,企業做專識數據集的差異化。地基由國家鋪,上蓋由企業建。

這是中國具身數據產業最有可能的演化路徑。

世界座標系:中美路徑選擇背后的發展哲學分歧

如果把視野拉到太平洋的另一端,我們會發現,中美在具身數據上選了兩條截然不同的路。這不是簡單的技術路線之爭,而是底層發展哲學的分裂。

美國走的是「仿真優先」路線。

這套方法的核心邏輯是:用算力把數據「造」出來。NVIDIA GR00T Blueprint可以在11個小時內生成78萬條合成軌跡,相當於6500小時的人類演示數據。當真實採集成本太高時,就用算力壓垮採集,反正算力是英偉達自己的。

中國走的是「真實優先」路線。

從北京亦莊到上海張江,從天津帕西尼到武漢創新中心,一座座物理意義上的數據採集工廠正在拔地而起。帕西尼超級數據工廠構建了全球第一個VTLA(視覺-觸覺-語言-動作)具身智能模型。當頂級算力受限時,就用場景換數據,用工廠換數據。

兩套方法的底層假設完全相反。

美國相信「算力最終會戰勝真實」,只要GPU足夠多、世界模型足夠好,比特就能生成原子級別的真實。

中國則相信「場景最終會戰勝算力」,只要工廠足夠多、模態足夠全,觸覺、力覺、本體感知這些無法被完美仿真的數據,將成為終極護城河。

這種分歧並非偶然,而是被外部約束逼出來的產業適應。GPU出口管制讓中國無法以同等規模做仿真合成,但這種被迫的轉向,反而催生了一個被嚴重低估的非對稱優勢:VTLA。

從VLA到VTLA,其中的觸覺,恰恰是機器人通往靈巧操作商業價值的最后一公里,擰瓶蓋、剝雞蛋、柔性組裝…這些場景僅靠視覺永遠做不到。

更關鍵的是,觸覺數據的護城河天然屬於製造業稟賦深厚的國家。中國是全球唯一擁有完整製造業體系的經濟體,從精密裝配到柔性抓取的真實場景密度遠超美國。這些稟賦疊加在一起,讓中國在VTLA路線上擁有了美國無法快速複製的結構性優勢。

寫在最后

臺積電用30年在芯片端築起了護城河,OpenAI和DeepSeek用3年在模型端築起了護城河。下一塊護城河,很有可能建在數據端。

回到產業層面,目前有五條具身數據採集路徑正在同台競爭:真機遙操作、UMI外骨骼、第一人稱視頻學習、仿真合成、世界模型生成。

它們各自的成本、模態完整性和規模化潛力構成了一個明顯的「不可能三角」:成本越低的路徑,模態越不完整;模態越完整的路徑,規模越上不去。沒有任何一條路徑可以單獨勝出。

所以真正的贏家,不會押注單一路徑,而是會找到最優配比。

我們暫且把它叫做「數據三明治配方」:仿真合成做規模化預訓練(70%) + 視頻學習做場景泛化(20%) + 真機遙操作做能力對齊(10%)。

這可能是2026到2027年的主流配方,但具體的微調比例,或許將成為各家模型公司最核心的機密。

而圍繞這盤棋的資本佈局,正在形成一個清晰的三層金字塔:

最上層是本體廠商(紅海一片)

中間層是數據採集設備與平臺(藍海初現)

最底層是數據要素基礎設施(國家隊主導)

當大模型的參數戰走向收斂,當具身智能的機器軀殼逐漸淪為標品,這場科技革命的終極角逐,終將回歸到最底層的資源爭奪:數據。

在這個金字塔中,越往下走,根系越深;越往上走,廝殺越烈。

本文來自微信公眾號 「物聯網智庫」(ID:iot101),作者:彭昭,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。