熱門資訊> 正文
2025-08-08 09:45
智能涌現製圖
具身智能創業,要做蘋果,而不是安卓。
文|邱曉芬
編輯|蘇建勛
不管是剛剛結束的WAIC(世界人工智能大會),還是本周要開幕的WRC(世界機器人大會),如何在展會上識別一個機器人的真正實力?
具身智能公司「千尋智能」的聯合創始人高陽,提供了這樣幾個tips:
對於號稱能疊衣服的機器人,你可以嘗試把衣服團成一團,隨意丟在桌上,觀察它是否能繼續完成動作;或者是再給它褲子、外套,看它能否具備跨品類的泛化能力;
在機器人操作時,可以觀察其動作是否足夠絲滑流暢,而不是一卡一卡,這代表了思維和動作的協調性……
給我們提出指引的高陽,是當前具身智能領域炙手可熱的創業者之一——從美國加州大學伯克利分校博士畢業后,他選擇回國成為清華大學交叉信息研究院助理教授。
2023年,他又與前珞石機器人CTO韓峰濤一起,創辦了具身智能公司千尋智能——韓峰濤硬件經驗豐富,過往操盤過數萬臺機器人量產出貨,高陽則有AI的研究基礎,學術和產業界的搭配,使得千尋智能成為這波具身智能浪潮里的當紅公司。
成立19個月的時間里,他們累計融資超10億人民幣。資方名單中,有華為哈勃、京東、寧德時代、順為資本等等。
從高校的「象牙塔」邁入商業世界,高陽也要直面刻板印象對「科學家創業」的偏見,但他並不迴避。
「科學家創業,某種程度上並不靠譜」,在他看來,科學家是追求真理、興趣驅動的工作,而創業則着意於商業成功。「我在不斷承認自己的侷限性,我知道我不擅長什麼,嘗試去彌補」。
高陽將創業比喻為「一種遊戲」,而那些與投資人、客户的交流,都是遊戲里升級打怪的過程。他見過上百位投資人,開始的時候由於技術講解得太晦澀,「把人講睡着了」,但高陽能在得到反饋后迅速調整,「現在和投資人打交道就變得更熟練了,這是我喜歡的成長的過程。」
在這位年輕創業者的辦公室里——他的電腦顯示器上還貼着卡皮巴拉小公仔,高陽與《智能涌現》交流了他從科學家轉到創業者的心路歷程,以及對於具身智能技術路徑的一些看法,以下是交流實錄(略經摘編)
智能涌現:機器人領域,你和韓總的對搭檔算是一個不錯的組合:一位是軟件方向的科學家,一位是硬件經驗很足的企業家。你當時挑選合夥人的標準是什麼?
高陽:我當時想了蠻久的,關於具身智能到底應該怎麼去賣給客户。我到今天為止一個比較obvious的結論是,得做軟硬一體,得做具身智能領域的蘋果,不能做安卓。
因為技術初期,跨本體能力一定是比較弱的,把軟件和硬件一起做好,在無數的行業初期都是這樣的。比如個人電腦最開始,像IBM,它做硬件也做軟件,可能過了三四十年,大家才逐漸軟硬去分工。
我自己做軟件做的很多,但硬件基本沒有做過,所以我覺得把硬件和軟件兩方面都做得很強,在這個企業的前30年特別重要。
另一方面,其實很多做硬件的人不擁抱變化,或者説他們沒有意識到變化。但是韓總在非常早的時候就意識到這個變化,跟我是想到一塊去了。
智能涌現:您2023年是看到了什麼,纔有了這種機器人創業的想法?
高陽:主要是看到ChatGPT對於學習範式的轉變。原來ChatGPT出來之前,我自己都不信openAI天天搞的這些玩意兒,包括Berkeley很多很senior的教授都覺得這是扯淡,但是就直到他們做出來了GPT-3.5,我們就反思了一下,覺得自己之前想錯了。你順這個邏輯去推演,具身智能它是一個必然的現象,只是需要一定的時間。
智能涌現:你們2023年就決定機器人一定是軟硬一體的,但是現在也有頭部機器人公司對大腦依然是忽視的,您怎麼看?
高陽:頭部公司有他自己的邏輯,他的邏輯在於,他非常擅長去做硬件,靠賣給教育客户已經能活得很好,可以通過這個上市了。他最佳的solution就是,先穩固教育市場,不要被別人搶了,因為現在有很多其他公司在嘗試去做這一塊生意。等上市之后,他慢慢去做別的事情,一個公司很難同時做很多事情,尤其是當教育市場已經有了激烈的競爭。
智能涌現:如果我做一個非人型的硬件,它是一個新形態的本體,這里面會不會有隻做本體的公司的成長空間?
高陽:本體的設計跟AI的需求是強相關的。我舉個例子,我做了一個本體,比如我伸長胳膊的時候,逆解失敗了,導致我拿不到桌上這個東西,這種問題很常見,如果不把這個硬件和AI聯合開發的話,你是沒有辦法意識到這個問題的。
智能涌現:如果只是從這個行業來看,它的市場空間容納不下第二個這種公司了?
高陽:我覺得很難容納。
從科學家到做管理,是一種「遊戲」
智能涌現:當時吳翼老師讓你從Berkeley回來的時候,你就打算創業,我記得你曾經提到,你覺得回來做科研會更有挑戰?
高陽:當時就是想回國做研究,那時候沒有現在這種技術變革的機會。當時我另一個選擇是,在美國去大廠里面做research engineer。但那種路線就是別人給你plan好了,就這麼一點點事,你把它做好就行了。
但是做教授的話,相當於實驗室可能剛開始,什麼東西都沒有,也沒有人,你要把所有東西都從頭build起來,是從0到1的挑戰。所以我大概是從2023年后半年開始創業,那時候是我回國的第三年左右。
智能涌現:我感覺你不只是在科研的角度去考慮事情,好像是從business的角度去思考。
高陽:對於怎麼把技術做到讓每個人去使用,我非常感興趣,所以我就開始去思考商業層面上,怎麼能把機器人做好,然后再推導出來要軟硬一體,然后再去選擇誰跟我一起來創業。
智能涌現:您為什麼認為管理是一種技術?因為技術會比較一板一眼,比較理性,但是管理也是有一些感性的成分。
高陽:管理不是一個嚴格意義上的技術,它可能是技術和藝術之間的中間的狀態,但是管理是有跡可循的,但是又不像理工科一樣只要follow這一套就沒問題了,它還是需要一些靈機應變的地方。
智能涌現:您之前提到,科學家創業不是特別靠譜。那你自己去實踐的時候,怎麼去補充起這些額外的能力?
高陽:我先講一下為啥不靠譜。科學家追求真理,是興趣驅動的工作。但是創業的話,最重要目標是做出來一個產品,很多時候不是關乎於真理,而是關乎怎麼去服務好客户,不同客户可能有很多不一樣的需求指標和維度。
在這個過程之中,你要用公司的形態去達到這個目標,里面也有很多專業的技術,比如怎麼去搭建團隊、把這個公司當做一個成長的人去培養。
我肯定不能説我100%會成功,只能説我在不斷去承認自己的侷限性。我知道我不擅長什麼,然后我再嘗試去彌補。
智能涌現:具體到您個人,您就是怎麼完成科學家身份到創業者身份的轉變?
高陽:我覺得就是承認自己的侷限性,去開放學習創業這一套,去用商業公司的成功去drive整個東西,而不僅僅是對真理的探索。
智能涌現:你享受這個過程嗎?
高陽:我覺得我還挺享受的,它是一個挺有意思的遊戲,也有很多lesson。其中一個lesson就是,我最開始跟投資人講的偏事實向,我講的很精確,但是大家很困,很無聊。
然后我意識到好像不能這麼講,需要用一個更加形象生動的方式去給他們講明白。類似於這種lesson有很多。
智能涌現:這個過程你也享受?
高陽:客觀世界里,這是我所需要完成的。只要我想做好這件事情,我就得經歷。
智能涌現:你見了多少投資人?你有統計過嗎?
高陽:沒統計過,但可能有一兩百個,然后每一個人,你都得給他們講一講。
智能涌現:這個過程中,你會如何不斷修正自己和投資人接觸的方式?
高陽:我覺得反饋非常重要,否則你不知道自己什麼方面做的不好。現在和投資人打交道就變得更熟練了,這是我喜歡的成長的過程。
智能涌現:你覺得這對於你來説,會是一個比較大的挑戰嗎?
高陽:我覺得還好,它可能就像任何一項技術一樣,它只不過是一個特殊的技術。
智能涌現:現在這個階段,用Transformer做預訓練已經是共識,但不知道在各家工程化的后期,效果會有明顯的高下之分?
高陽:我覺得就是您可以去WRC現場看一看,可能理論說了千千萬,大家還得自己去體驗一下。比如,你能不能跟它有一些交互?你把衣服團一團扔給他,看機器人能不能重新疊好。
智能涌現:這可以成為我們看機器人看展的一個指引。
高陽:因為機器人是一個很龐大的系統,所以你很難搞清楚誰更好。我覺得就是最好方法就是你自己去體驗,看看各家的模型到底能干啥。
智能涌現:大家今年都在説VLA,怎麼去判斷各家VLA效果的好壞?
高陽:一個是算法。比如有一些VLA沒有辦法去分解任務,像千尋的VLA有一個快慢系統,可以把動作做得很流暢,沒有快慢系統的機器人,動作就會生硬、卡頓。
另一方面是數據。大模型需要消耗很多數據去訓練,我們自己做的模型會用互聯網上的人類視頻數據進行預訓練。而一些VLA無法在人類的視頻上做預訓練,性能就會比較差一些。
從技術角度來講就是這兩點。算法有什麼樣的特點,用什麼樣的數據去訓練,數據的清洗處理配比,這些都會影響效果。
如果從觀感來講,就是機器人能做多複雜的任務。比如,有一些模型只能做比較簡單的任務,我們叫pick and place。但是像千尋的模型,就可以做複雜如疊衣服的動作,你可以跟他進行一些搗亂,他可以完成得非常好。
智能涌現:千尋的Spirit v1的VLA模型,是基於您原來的那兩項研究(ViLa和CoPa)衍生出來的嗎?
高陽:不僅是那兩項,是很多研究演化出來的,包括one two VLA,都是在千尋的模型里面做了一些工程化。
智能涌現:你們的one two VLA,跟一般的VLA,不同點是什麼?
高陽:如果你跟他説稍微複雜一點的事,比如把手機放抽屜里,可能需要三個步驟——手機拿起來、打開抽屜放進去、再關上。一般的VLA做不了,one two VLA就可以自己去決策,什麼時候把任務分解成更小的任務,然后去完成,但是如果你跟它説一個很簡單的任務,它就不會繼續去分解。
智能涌現:您之前有一個判斷,認為四年之后會到Robot GPT3.5的階段。這個階段,它有什麼樣的特點?
高陽:Robot GPT3.5這個階段,基本上你跟他説任何的事情,他有七八成都能給你完成,比如説進家庭,去門外給我拿瓶水。但他可能不是100%的時候都 work,可能只有70%。
智能涌現:現在行業針對VLA路線,也做出了很多的反思,您認為它可修訂的的部分還有哪些?
高陽:我同意陳建宇(星動紀元創始人)之前説的,VLA中的「L」的部分的確現在太多了,因為這個模型其實不需要理解那麼複雜的語言。VLA在具體的技術上確實還有很多可以提升的空間。
智能涌現:那具體怎麼提升?
高陽:落到實處的話,其實有很多方面。在數據層面,比如如何更好利用互聯網上的人類視頻數據。因為現在機器人已經廣泛利用的是互聯網圖文數據,但是千尋智能已經在利用互聯網人類視頻的數據,因為人類視頻直觀上和機器人做的任務是相關的。
其次,用遙操作數據如何對VLA進行持續有效的監督微調,如何讓VLA在物理世界進行強化學習?因為監督微調是人類給他採集數據,強化學習是機器人自己進行的。
其次,在架構層面上,就像陳老師提到的,如何把L減得更少,還有,動作的tokenizer怎麼設計得更好,這也是可以不斷去探索和改進的。
智能涌現:快慢系統也算是我們獨創的技術點嗎?這個是什麼時候完成的?
高陽:對,這個大概4個月前。
智能涌現:快慢系統做出來之后,比如動作上,它會有哪些比較大的提升?
高陽:你看有一些機器人做事情的時候,一卡,一卡,就是因為模型沒有快慢系統。
像我們那個模型,我們疊衣服有一步是甩一下,這個動作要很快,如果不快,這個衣服根本甩不起來,你一停的話它就沒有那個勁。
智能涌現:今天大家還在討論世界模型,在千尋智能的研發版圖里,有考慮到這個嗎?
高陽:我覺得世界模型的成本,的確是比較高的。當下具身智能對於世界模型的訓練沒有那麼迫切,但我覺得最后它一定是需要的,它是RL(強化學習)里不可或缺的一環。我們現階段對於世界模型有一些小規模的訓練和使用,但沒有特別大規模。
智能涌現:分層的路徑,您覺得可行嗎?
高陽:我覺得分層最后是要被淘汰的。相當於,你用人類的智慧,把這個任務分解到更小。分層的方式,可能在一些任務上短期的效果還不錯,但長期來講一定是不scalable的,因為每做一個新的任務,都要手工去做一些事情。但是如果是端到端的話,就相當於你只要給模型補充數據就可以了。
智能涌現:在您的視野里,機器人領域還有哪些非共識缺口?
高陽:我的腦子里面有很多我自己閉環的東西,但是比如訪問器的重要性、機器人第一波落地場景還有很多非共識。包括VLA算法也是正在一個高速發展的過程,但是基本框架已經定下來,算法的一些細節還在快速的發展。
智能涌現:您怎麼看現在一些機器人公司建數採工廠的現象?會不會存在一個問題是,這家採的數據不一定能用到另外一家的不同硬件上?
高陽:我覺得大規模的數採工廠,在現在這個階段是沒有太大價值的,主要的原因是因為,大家的機器人形態還在不斷變化,機器人形態變了,之前的數據就沒辦法100%遷移,它會打比較大的折扣。
另一方面,按我們自己這個算法來講,你其實不需要那麼大規模的數採工廠,我覺得最重要的事情是把預訓練做好,其次纔是數採。我覺得現在可能有一點點本末倒置。
智能涌現:我感覺好像也有一些廠商把這種當做商業模式?
高陽:我覺得它短期的確是可以有一定的商業收入。美國很多做人工智能的公司,他們是人力太貴,沒有辦法建數採工廠,所以他們會買一些數據。但是長期來講,我覺得這個模式我覺得很難奏效,因為跨本體的難題還沒解決。
智能涌現:但是他們買的這些數據,用在自己不適配的本體上,這些數據還有價值嗎?
高陽:有價值,但是會打個折扣。
智能涌現:感覺現在機器人的demo有些同質化,為什麼都是比如疊衣服、開電器門的場景?
高陽:首先,疊衣服是一個大家公認的最難的任務,因為衣服的形狀千變萬化,你很難去給它預編程,其實從Demo里你就能看出來大家模型能力的區別,所以大家比較喜歡做這個。
然后,開冰箱、洗衣機門,大家在日常生活里會有這種任務,就可以讓大家imagine future。
智能涌現:你們互聯網的數據大概會佔多少?不同的數據,各自的作用是什麼?
高陽:按量算的話,95%以上。互聯網數據是非常廣泛的場景,它起到預訓練的作用,主要的意義就是提供數據多樣性,學術上來講就是希望模型泛化。泛化的本質原因就是,機器人見過的數據足夠多樣。
做遙操的話,相當於把泛化性和物理世界的精確操作連接起來。因為機器人只看別人做,自己沒做過,就很難去做任何事情,搖操作是提供精確性。
智能涌現:泛化怎麼體現呢?
高陽:比如説機器人拿了我的手機,我的是摺疊機,但原來訓練的是用 iPhone,它可以不用去採集摺疊機的數據,就能夠去識別它的形態、重量。
智能涌現:這種機器人領域普遍的泛化性表現如何?
高陽:還是比較初級的階段。但是我們發現用了互聯網數據之后,機器人的泛化性提升率還是非常大的,比如你換了一個物體,能有60%-80%的提升。最后預訓練和搖操作數據混在一起,兩者會互相幫助。
智能涌現:「伯克利四子」,你們四位研究方向和背景都很類似,那具體在研究思路上有哪些差異點?
高陽:陳建宇老師是MPC,他剛回國的時候做的是safety RL,就是控制論,他后來開始做人形機器人,關於行走、跑步。
我自己更多是偏操作類型的,用機器人的手進行干活什麼的,是模仿微調和強化微調這個體系。
許華哲老師他主要做的更多是3D policy,就是比如通過點雲,去做一些操作和識別,比如它的DP3,就是通過3D相機拍攝場景去實現操作。
智能涌現:你們私下會比對,誰的方向會更接近終局嗎?
高陽:大家都是自由的去選擇研究的方向,每個人的想法肯定還是有一些區別。學術上,我覺得很難去説服彼此。
智能涌現:那你們私下會去交流管理這件事情嗎?
高陽:大家剛成為教授或者剛剛創業的時候,都會面臨管理上的學習過程,這些我們交流的很多。
智能涌現:印象深刻的一次交流,你們四個得出了什麼管理上的結論?
高陽:我記得有一次我跟許華哲討論,他們是怎麼招人的,我們是怎麼招人的,彼此吐槽覺得招到特別好的人很不容易。以及我們也會討論怎麼面試別人。
智能涌現:Deepseek招人的邏輯是,團隊里會有大量年輕的角色,你們也是類似的邏輯嗎?
高陽:LM 和 VLM,和 Robotics 還是不太一樣,但是基本的畫像可能都是比較年輕的、比較聰明的,或許不見得有那麼多的工作經驗。其實我們需要的人並不是很多,但我們需要比較強的人。
智能涌現:強,怎麼理解?
高陽:比較典型的畫像是,比較好的學校的碩士或者博士畢業。他可能在Robotics領域發表過幾篇論文,但並沒有在公司里工作過,但是已經有過 research的經驗。
智能涌現:為什麼不需要有很強的工作經驗?是因為你自己曾經在公司工作過的體驗不太好嗎?
高陽:並不是,只是因為機器人的技術變化太快了。對於算法崗,如果是公司里工作三五年,那麼他可能是更久之前讀的書,那個時候的技術和現在肯定完全不一樣,他所受的教育和現在我們需要的東西可能就不是特別匹配了。我們需要年輕人,是因為他在當下接觸到的技術就是最前沿的。
智能涌現:從你們四位的背景上來説,都是從原來自動駕駛版圖遷移過來的。從大的邏輯上來看,自動駕駛和機器人領域,重疊的部分、以及后期需要你做增量的部分,分別是什麼?
高陽:重疊的部分是,這兩個問題的本質是相似的,都是説我看到了一個場景,要做出一個動作,然后這個動作要麼就是,機器人往前走了或者抓了東西,或者就是自動駕駛車往前走了或者剎車。
但這兩個領域也有很多不一樣的點,比如,自動駕駛的本體是ready的,不需要造,有二三十家車企能把汽車造得很好。但是人形機器人本體仍然是處在高速發展的階段。
還有,自動駕駛的安全性要求極高,但是人形機器人相對而言,某些場景的安全性要求沒有那麼高,它的場景錯誤容忍度會更高很多。
end
end