當臺積電把人形機器人寫進財報：芯片側的「明牌」與數據側的「暗戰」

2026-05-07 19:52

台積電(TSM) 0

4月底，在臺積電2026北美技術研討會上，這家半導體行業的霸主用了很大的篇幅，描繪了一個迄今還沒有完全定型的產業：人形機器人。

臺積電給出了一個極其精準的產業定義：

人形機器人 = Agentic AI（智能體AI） + Physical AI（物理AI）

這從側面印證了一個宏大的趨勢：AI正在完成一次歷史性的躍遷，從「理解世界」，走向「參與世界」。

此前，臺積電曾系統性地把人形機器人拆解為四個技術象限：大腦（Brain）、感知（Sensing）、運動（Movement）、電力（Power）。每一個象限都對應着一組具體的芯片體系：AP、連接芯片、傳感器、MCU、PMIC…它們共同拼湊出了一張完整的硅基路線圖。

臺積電計劃在未來三年內，將與人形機器人芯片相關的產能擴大兩倍。這意味着，具身智能將第一次在芯片巨頭的財報上，變現為真金白銀。

至此，硬件側的故事已經清清楚楚。路線圖已經畫好，財報已經開出，三年翻倍已經是寫在董事會決議里的鐵律。

但有一個致命的問題，至今沒有人正面回答：誰來「餵飽」這些芯片？

當全球每年250萬顆機器人級芯片正在被排進臺積電的產線，當每一顆AP、MCU、PMIC都在等待被賦予「靈魂」時，產業界突然意識到一個殘酷的現實：硬件這條腿正在以指數級速度邁出，而數據這條腿，還停留在兩年前。

這就是2026年具身智能產業最大的「剪刀差」。

硬件側的明牌已基本落定。但真正決定2026到2030年產業終局的，是一張迄今鮮有公司敢説自己已經看透的暗牌：數據。

文本大模型的訓練語料以百億小時計，而目前具身智能高質量數據的全行業存量，僅有約50萬小時。從50萬小時到100億小時，是2萬倍的擴張。這不是一個普通的市場機會，這是一條國運級的賽道。

而在這張暗牌的背面，最有意思的故事正在發生。一場由國家數據局、地方政府、產業巨頭和VC共同捲入的、規模空前的數據基礎設施暗戰，已經悄然打響。

硬件已「明牌」：四象限框架反推出的數據缺口圖譜

過去，關於人形機器人的討論幾乎都被一個個關於場景的執念所佔據：能不能后空翻？能不能走樓梯？能不能練武術？似乎只有動起來，纔有人買單。

但如果把視野從產業焦點拉回到臺積電的那張芯片圖譜，我們會發現一個反直覺的事實：四個象限里被討論得最熱的那一個，恰恰是技術壁壘相對最低的那一個。

大腦：對應AP和AI加速器，需要意圖理解與長程規劃數據，目前幾乎空白。

感知：對應CIS、MEMS、6D力矩、觸覺傳感器，需要視覺、聽覺、力覺、觸覺、本體感知五維以上的融合數據，但產業90%的精力卻只停留在RGB視覺。

運動：對應MCU和伺服，需要軌跡和力反饋數據，這是當下討論的絕對中心。

電力：對應PMIC和BMS，需要能耗-動作耦合數據，同樣幾乎空白。

四個象限里，有三個都尚未真正建立起系統性的採集體系。

其中，尤其值得追問的是感知象限。臺積電的傳感器清單暗示，機器人的數據感官至少是六維以上的。但今天產業採集的數據是幾維的？兩維到三維。絕大多數企業仍停留在「RGB視頻+動作標籤」的初級階段，少數前沿玩家引入了VLA（視覺-語言-動作）模型，但距離真正的高維多模態，中間還隔着至少兩個量級的鴻溝。

這個差距不是工程問題，而是認知問題。

互聯網巨頭帶着做大模型的「肌肉記憶」殺進具身智能，他們最擅長採集視頻、處理圖像。但人類在做精細動作時，比如擰螺絲、剝雞蛋、穿針引線…絕大部分關鍵信息根本不來自眼睛，而是來自指尖的壓力、手腕的力矩、整條手臂的本體感受。這些信息一旦缺失，再聰明的VLA模型也只是在「表演」，而非「干活」。

所以，互聯網巨頭採集的「機器人數據」，在「感知」象限里只解決了10%的問題。

剩下90%的力覺、觸覺、本體感知、能耗-動作耦合，根本沒有規模化採集的現成路徑。

這不是數據「多不多」的問題，而是數據「對不對」的問題。

而在中國，已經有一小批玩家開始悄悄打這三張暗牌。他們的故事，要從當下籠罩產業的五個認知誤區説起。

數據迷霧：五大認知誤區正在誤導整個產業

誤區一：把具身智能數據等同於視頻數據。

這是最流行的偷懶答案：既然大模型是靠語料堆出來的，那機器人靠視頻繼續堆就行了。但互聯網視頻是「觀察者視角」，具身智能需要的是「第一人稱+多模態行動數據」。文本大模型只需要「知識」，具身大模型需要的是「經驗」，而經驗里必須包含「做錯並被糾正」的過程數據。看一萬小時的烹飪視頻，AI也學不會切菜時握刀的最佳力度。

誤區二：相信仿真+世界模型可以徹底替代真實。

從仿真到現實的鴻溝，不是工程問題，而是物理本質問題，一度電的電壓波動、地面摩擦係數的微小變化、皮革表面的細微紋理，都可能讓仿真環境里完美運行的算法，在真實世界里立刻翻車。真實、仿真、視頻三種數據的最優配比，將成為接下來幾年各家模型公司最不願公開的核心機密。

誤區三：把數據採集成本等同於設備成本。

有研究機構曾經給出一個統計數字：一個訓練師每天工作8小時，最終能用的數據只有兩三個小時；機器人學會「拿杯子」這一個動作，就需要上千小時的數據積累。這意味着行業當前的數據良品率，大致只有25%到37%。真正的成本不在採集設備，而在標註、驗證和技能抽象化。一個能把良品率從30%推到70%的玩家，將直接擁有2到3倍的成本優勢，這是被嚴重低估的機會。

誤區四：把靈巧手數據等同於普通的機器人數據。

普通機器人數據側重場景廣度和導航避障，而靈巧手數據要求高維度、多模態、強時序，必須融合姿態、力覺、觸覺等多種信息。目前，優質靈巧手數據的供給量不足實際產業化需求的10%。這不是產能問題，而是結構性稀缺。人形機器人60%的商業價值，恰恰取決於手能不能干活。靈巧手數據的採集成本是腿部數據的5到10倍，但產業當下大量企業都在採集移動數據「佔山頭」，真正卡脖子的環節反而缺乏系統性投入。

誤區五（最隱蔽的誤區）：把數據當成消耗品，而不是資產。

在絕大多數企業的財務模型里，數據採集是訓練階段的一次性支出，訓練完模型，數據就被歸檔遺忘。但真正決定長期競爭力的，是這些數據能否沉澱為可複用、可流通、可標準化的高質量數據集，反覆餵養下一代模型、遷移到新的本體、共享給生態夥伴。一旦產業開始把數據視作「資產」，底層邏輯就徹底變了。因為資產是需要基礎設施來承載、確權和流通的。

而這，正是「國家隊」入場的根本理由。

國家入場：從「市場失靈」到「基礎設施化」的演進

數據一旦躍升爲「資產」，就必然呼喚一套極其厚重的底層基建來承載：確權、定價、流通、安全、標準，缺一不可。這套宏大的系統工程，註定超出了任何單體企業的承載極限，必須由國家力量來鋪設「高速公路」。

就在4月28日，工信部與國家數據局聯合印發了《關於聯合實施2026年「模數共振」行動的通知》。但若追本溯源，這場「模數共振」的發令槍，早在2024年12月便已悄然扣動。

彼時，國家發改委與國家數據局等部門聯合發文，首次將「高質量數據集」的戰略地位推上臺面。歷經一年多的沉澱，如今政策端釋放出了極強的「實操」信號：2026年不僅將密集出臺30余項數據領域國家標準，更要在智能體、具身智能等前沿無人區完成深度佈局。

緊隨其后的是工信部與國家數據局的聯合行動方案：到2026年底，基本形成「數據-模型-場景應用」良性互促的循環，鼓勵「模數共振」空間與國家數據基礎設施互聯互通。

「模數共振」四個字很值得品味，它意味着國家正式把「模型」與「數據」並列為新基建的兩塊基石。

最高規格的背書則來自「十五五」規劃綱要：建設高質量數據集，培育發展具身智能、腦機接口、6G等未來產業。在這里，具身智能不再是配角，而是與6G並列的國家級未來產業。

如果説政策是上層建築，物理基礎設施已經在20多個城市拔地而起。

北京亦莊落地了國家地方共建具身智能機器人創新中心，整個區域已集聚機器人和智能製造生態企業300余家；上海2025年8月發佈的《具身智能產業發展實施方案》明確提出，到2027年核心產業規模突破500億元；張江搭建了全國首個異構人形機器人訓練場，目標年內沉澱1000萬條高質量具身數據集；天津帕西尼超級數據工廠佔地12000平方米，年產近2億條高維訓練數據。

一支由國資與地方政府聯合搭建的數據採集軍團，正在用標準化、規模化的方式，開採具身智能時代的「原油」。

具身數據的特殊性在於，它不像政務數據是存量資產，它需要實時增量採集的動態交互。這意味着，商業層和國家層最有可能形成的不是替代關係，而是分工關係：國家做通識數據集的底座，企業做專識數據集的差異化。地基由國家鋪，上蓋由企業建。

這是中國具身數據產業最有可能的演化路徑。

世界座標系：中美路徑選擇背后的發展哲學分歧

如果把視野拉到太平洋的另一端，我們會發現，中美在具身數據上選了兩條截然不同的路。這不是簡單的技術路線之爭，而是底層發展哲學的分裂。

美國走的是「仿真優先」路線。

這套方法的核心邏輯是：用算力把數據「造」出來。NVIDIA GR00T Blueprint可以在11個小時內生成78萬條合成軌跡，相當於6500小時的人類演示數據。當真實採集成本太高時，就用算力壓垮採集，反正算力是英偉達自己的。

中國走的是「真實優先」路線。

從北京亦莊到上海張江，從天津帕西尼到武漢創新中心，一座座物理意義上的數據採集工廠正在拔地而起。帕西尼超級數據工廠構建了全球第一個VTLA（視覺-觸覺-語言-動作）具身智能模型。當頂級算力受限時，就用場景換數據，用工廠換數據。

兩套方法的底層假設完全相反。

美國相信「算力最終會戰勝真實」，只要GPU足夠多、世界模型足夠好，比特就能生成原子級別的真實。

中國則相信「場景最終會戰勝算力」，只要工廠足夠多、模態足夠全，觸覺、力覺、本體感知這些無法被完美仿真的數據，將成為終極護城河。

這種分歧並非偶然，而是被外部約束逼出來的產業適應。GPU出口管制讓中國無法以同等規模做仿真合成，但這種被迫的轉向，反而催生了一個被嚴重低估的非對稱優勢：VTLA。

從VLA到VTLA，其中的觸覺，恰恰是機器人通往靈巧操作商業價值的最后一公里，擰瓶蓋、剝雞蛋、柔性組裝…這些場景僅靠視覺永遠做不到。

更關鍵的是，觸覺數據的護城河天然屬於製造業稟賦深厚的國家。中國是全球唯一擁有完整製造業體系的經濟體，從精密裝配到柔性抓取的真實場景密度遠超美國。這些稟賦疊加在一起，讓中國在VTLA路線上擁有了美國無法快速複製的結構性優勢。

寫在最后

臺積電用30年在芯片端築起了護城河，OpenAI和DeepSeek用3年在模型端築起了護城河。下一塊護城河，很有可能建在數據端。

回到產業層面，目前有五條具身數據採集路徑正在同台競爭：真機遙操作、UMI外骨骼、第一人稱視頻學習、仿真合成、世界模型生成。

它們各自的成本、模態完整性和規模化潛力構成了一個明顯的「不可能三角」：成本越低的路徑，模態越不完整；模態越完整的路徑，規模越上不去。沒有任何一條路徑可以單獨勝出。

所以真正的贏家，不會押注單一路徑，而是會找到最優配比。

我們暫且把它叫做「數據三明治配方」：仿真合成做規模化預訓練（70%） + 視頻學習做場景泛化（20%） + 真機遙操作做能力對齊（10%）。

這可能是2026到2027年的主流配方，但具體的微調比例，或許將成為各家模型公司最核心的機密。

而圍繞這盤棋的資本佈局，正在形成一個清晰的三層金字塔：

最上層是本體廠商（紅海一片）

中間層是數據採集設備與平臺（藍海初現）

最底層是數據要素基礎設施（國家隊主導）

當大模型的參數戰走向收斂，當具身智能的機器軀殼逐漸淪為標品，這場科技革命的終極角逐，終將回歸到最底層的資源爭奪：數據。

在這個金字塔中，越往下走，根系越深；越往上走，廝殺越烈。

本文來自微信公眾號「物聯網智庫」（ID：iot101），作者：彭昭，36氪經授權發佈。

當臺積電把人形機器人寫進財報：芯片側的「明牌」與數據側的「暗戰」

硬件已「明牌」：四象限框架反推出的數據缺口圖譜

數據迷霧：五大認知誤區正在誤導整個產業

誤區一：把具身智能數據等同於視頻數據。

誤區二：相信仿真+世界模型可以徹底替代真實。

誤區三：把數據採集成本等同於設備成本。

誤區四：把靈巧手數據等同於普通的機器人數據。

誤區五（最隱蔽的誤區）：把數據當成消耗品，而不是資產。

國家入場：從「市場失靈」到「基礎設施化」的演進

世界座標系：中美路徑選擇背后的發展哲學分歧

寫在最后

推薦文章

騰訊、阿里等中概巨頭業績來襲！AI收入轉化率成核心看點，這輪財報季能否助力恆科「反彈」？

港股周報 | 存儲芯片持續飆升！兩倍做多海力士周內狂漲64%；段永平重大調倉！清倉中國神華，大幅買入泡泡瑪特

一周財經日曆 | 下周重磅大事齊襲！特朗普政府或攜黃仁勛訪華；中概科網股財報季打響！騰訊、阿里同日放榜

美股機會日報 | 「TACO」已經過時？華爾街瘋狂湧入「NACHO」交易；今晚20:30！美國4月非農或創年內最大落差？

華盛早報 | 美伊突發交火！特朗普密集發聲施壓；英偉達官宣入股，IREN盤后一度暴漲27%

5月8日外盤頭條：美國計劃本周重啟護航行動 特朗普給予歐盟至7月4日批准貿易協議 OpenAI與博通芯片豪賭遇冷

CoreWeave一季度末簽約總電力容量3.5吉瓦 年內股價漲近80%

馬斯克再下注：SpaceX IPO倒計時 擬投1190億美元建Terafab芯片廠

5月8日外盤頭條：美國計劃本周重啟護航行動特朗普給予歐盟至7月4日批准貿易協議 OpenAI與博通芯片豪賭遇冷

CoreWeave一季度末簽約總電力容量3.5吉瓦年內股價漲近80%

馬斯克再下注：SpaceX IPO倒計時擬投1190億美元建Terafab芯片廠