熱門資訊> 正文
2025-08-13 08:00
《智能涌現》製圖
王興興表示,宇樹雖然對於模型的投入保持謹慎狀態,但其實「模型團隊人數算多的」。
文|邱曉芬
編輯|蘇建勛
當行業里都認為,宇樹是一個做機器人本體的公司,宇樹科技創始人王興興,在世界機器人大會(WRC)期間的一番言論,打破了這刻板印象。
WRC上,王興興在他的主題演講中,將大段篇幅留給了模型、算法和數據,其中不少觀點引起了行業廣泛討論——
比如,對於當前機器人大火的VLA(Vision-Language-Action)路線,王興興直言,他持有一定的懷疑態度。他甚至認為,「這是一個相對傻瓜式的架構」。
原因是具身領域的現存數據量不夠。王興興認為,當VLA模型與真實世界交互的時候,背后的數據質量、數量,並不太夠用。
這已經是個共識,但不少具身公司都瘋狂用堆真機數據、仿真數據、甚至建數採廠的方式來彌補。
王興興對此也直言不諱——「大家對於基礎數據的關注度太高了」,相反,他認為應該把焦點放在具身機器人的模型架構上,因為現在的模型「不夠好、也不夠統一」。
此前王興興在公開場合中多次強調,宇樹的核心優勢在於機器人本體硬件而非大腦,過往的種種表述,很容易讓外界產生,「宇樹不做機器人大腦」的印象。
而在WRC期間,王興興向《智能涌現》等媒體表示,宇樹雖然對於模型的投入保持謹慎狀態,但其實「模型團隊人數算多的,但相比於AI大廠算少的。」
△王興興接受媒體採訪中 《智能涌現》拍攝
但是,他也堅信,在模型上部署人員數量多寡,與最終的結果並不強掛鉤——至少,從過去AI領域的經驗來看,創新不一定在大廠中發生。
「不是資源多、錢多、人多,就能做出全球最好、最早的技術,一箇中小型團隊,也是有概率做出更好的模型,只是壓力也會很大。」王興興對《智能涌現》等媒體説到。
在大腦的路線選擇上,王興興選擇多方下注,他的另一個引發行業熱議的論點,有關當下最熱門的「VLA」。
王興興並不認同行業里在VLA模型還不夠好的情況下,就瘋狂堆一大堆數據去訓練。因為,對於一個能力更強的具身模型來説,或許只要很少的數據,就能以更高的成功率做訓練。
當然,宇樹不是完全不使用VLA,在演講中,王興興也提到,宇樹也在嘗試在VLA模型上,加AI進行訓練。
不過,在大腦路線上,宇樹顯然會更傾向於視頻的路線。去年,谷歌已經發布了視頻驅動的世界模型,王興興説,早在去年,宇樹已經嘗試了類似的方法。
具體而言,就是先讓視頻生成模型生成一個「機器人整理房間」的視頻,再用這個視頻去驅動機器人,完成整理房間的任務。
△王興興演講截圖
王興興判斷,這種視頻的路線,未來或許會比VLA的路線發展更快、收斂的概率更大。只是,這種視頻的路線也不是100%完美。由於對視頻質量要求過高,會導致GPU消耗過多。
但未來機器人的算力問題如何解決,王興興也有了一定的預期。
他判斷,未來機器人領域,需要搭建低成本、大規模、分佈式的算力集羣。他認為,未來如果一個工廠里有 100 個機器人,那工廠里面大概率可以搭建一個分佈式的服務器集羣,因為機器人需要更低的通訊延迟。
從今年春晚的機器人扭秧歌丟手絹,再到今年WAIC、WRC大火的機器人格鬥,這讓很多人以為,宇樹的機器人不干活,只做表演。
尤其是,一眾新入局者,都在費盡心思把機器人送進工廠擰螺絲、疊衣服、疊被子,形成了對比。
王興興直言,現階段要讓機器人進工廠、進家庭干活,並不太現實,而在當前,表演則是機器人相對容易落地的方向。
相反,在宇樹的內部,思考如何讓機器人干活的員工,也是最多的。
他也解釋了為什麼宇樹很少對外宣傳機器人干活的場景——「機器人干活,對於AI模型的挑戰很大,目前我們的實現也並不理想。」
對於「干活」這件事,王興興提出了自己的看法——他希望,機器人不應該只做單功能性的事情,比如整理衣服、燒菜,而應該是通用型、多功能的,比如能在工廠端茶倒水,又能做表演。
王興興這次也對機器人的節點下了判斷:機器人的ChatGPT時刻,最快可能2-3 年實現,最慢可能是3-5年。他認為,這波具身智能浪潮,不會超過10年。
不過,ChatGPT時刻長啥樣?
王興興設想了一個畫面——在一個場館里,人形機器人隨意走來走去,你隨機吩咐一個機器人做點事情,他都能幫你完成時,這才達到了機器人的「臨界點」。
封面來源|作者拍攝
歡迎關注