熱門資訊> 正文
2025-08-09 09:07
專題:2025世界機器人大會:AI大模型賦能機器人與具身智能產業新範式交流活動
「2025世界機器人大會」於8月8日至12日在北京經濟技術開發區開幕。「AI 大模型賦能機器人與具身智能產業新範式交流活動」作為2025世界機器人大會的專題活動於8月8日同期召開。深圳一目科技有限公司創始人兼CEO李智強出席並演講。
以下為演講實錄:
大家好!我今天給大家帶來的題目是「觸覺增強的世界模型」。
今天看到很多在具身智能發展還是非常瘋狂的,作為一個AI科技老兵看到這些發展也是非常期待,我2011年從CMU畢業,當時AI還在發展的初期,帶大家回顧一下AI發展的早期,從2000年初開始有了ImageNet,然后逐漸催生了視覺智能向前發展。那時候非常不夠先進,從2010年開始嘗試識別視覺里的各種物體。到了今天過去15年已經發展到了OpenAI的ChatGPT這種多模態模型完全能夠進行語義的理解以及重建。我們已經走到了今天純視覺重建的過程。
我覺得具身智能的未來應該是過去15年視覺智能過去發展歷史的起點,未來其實還有一些缺失的部分,我們到底應該做哪些事情來補足這些,來推動人工智能在具身智能方向發展。我們看到了這樣一些缺失點。比如説我們對於整個世界物理模型的一些參數還是有缺失的,其實有很多在VLA模型跑的非常先進了,我覺得也是非常好的開始。
比如説對於一些材質、物理結構更高維度的參數還是缺失的,如果想構建這樣一個世界大模型的話,其實還是要補足這樣一個過程的,因此我們認為靠什麼來補足還不能獲取的數據。可以參考過去的發展,通過camera的演進,通過視覺模型的演進獲得更好的視覺辨認能力和語義理解能力以及對於聽覺的理解能力。
未來在更多的維度對於物體的理解上需要補足觸覺的理解力的。特別有意思的一點,觸覺的感知和執行其實是一個物體,都是我們的手。這個跟視覺和聽覺不太一樣的地方,視覺和聽覺對於非接觸性的物體的感知非常好,但一旦有了接觸,我們的執行器和感知器是完全統一的,這也是它最美妙的地方之一。
因此我們覺得未來補足大模型的短板,是要通過觸覺。能不能通過觸覺來增強VLA模型?真正的推動具身智能的發展。
具體怎麼做?我們想做一個思想實驗,每個人可以嘗試一下從口袋里摸一下物體,人是可以非常輕松的辨別出口袋里到底是一把鑰匙還是一個耳機,還是一枚硬幣。這個過程怎麼做到的,不是一個非常嚴謹的推理和計算的邏輯,其實是人對這個物質和世界逐漸的觸碰、探索、3D構建以及物理世界映射的關係。我可以很容易的知道這把是鑰匙,這個是耳機,我認為其實機器人也應該能夠重構人對於物理世界感知的能力。
如果有一天機器人能夠不停的通過觸碰,通過探索來重建類人的感知能力,那我覺得纔是世界模型到達終極目標的那天。具體怎麼做到?我們也不是先行者,我們應該從PIXELS到VOXELS,我們從一個真實的物理世界通過數字化的PIXELS化獲得更多維度的觸覺感知的信息,最終通過物理世界的三維構建形成VOXELS信息,導入到我們的物理大模型里面去,然后形成更多維度的感知。
如果想實現這件事情,這樣的觸覺感知系統需要滿足三個條件。
第一個條件,一定是絕對類人的感知能力,而且是始於所有的對於類人觸覺能力的反算,要基於從原理上、從架構上、性能上、形態上要有絕對的類人性。
第二個條件,在系統工程的優化能力上要做到高保真的魯棒系統。我們看視覺和聽覺的演進,都是從最早的低像素、低分辨率到逐漸類人化的演進。我們認為觸覺也應該有相似的過程,逐漸逼近人類的觸覺能力,所以應該從空間一致性、時序穩定性、信號完整性以及生物貼合性完全類人。
第三個條件,既然要成為具身智能,一定要跟具身的大模型打通,必須形成一種高效魯棒的算法體系,能夠從端到端結合大現有的VLA或者VTLA模型里面去,能夠形成類人的感知能力。
這三點都是需要滿足的纔是最終極的觸覺感知能力。
我們也不是這個世界上第一個提出的,我們也致敬前輩,視觸覺和光觸覺的方案應該是目前看到的最好的一類觸覺解決方案,一目也發佈了視觸覺的解決方案,在它的高保真、高像素以及魯棒性分析做到了最優化。
我們可以像人一樣通過反覆的觸碰這個物理世界演進,然后重構對於物理世界三維座標體系以及三維形態的理解,形成更多維度的能力體現,最終輸入到大模型里進行具身智能的演進。這是第一個問題就是硬件問題,能夠通過觸覺傳感器來解決。
具身智能在Locomotion、Navigation方面已經做的非常好了,但在Manipulation尤其是精細化操作方面還是有欠缺的,這個欠缺主要還是在數據上的欠缺。數據集是我們最缺乏的東西,我們怎麼去解決第二個問題就是數據問題,一目也想通過觸覺傳感器以及觸覺解決方案能夠加速海量的高質量數據的收集這樣一個過程。如何去做?我們也比較相信英偉達提出的邏輯。如果僅僅靠人力來收集數據的話永遠是線性的,永遠不可能像OpenAI,像ChatGPT一樣趕上海量的數據,這個線性的路徑完全不能讓我們走向具身智能終點的,我們的想法是一定要用現實作為錨點,通過仿真作為數據放大的過程,放大10倍、100倍甚至1000倍的能力來加速整個海量數據的採集。但這里有一點,一定是有真實數據作為你的錨點去增加你的數據量。
這樣的話才能趕上具身智能數據的需求。如果具身智能沒有海量數據,其實很難推動它的發展。我們做了很多嘗試和實驗,在物理模型里通過英偉達的物理模型先去嘗試觸碰了世界上上百萬種物體,比如説有膠水、螺絲刀和各種鋼筆等等,已經在仿真世界通過不同的環境、不同的光照、不同的物理形態做過了這樣的模擬和觸碰。很快就可以把這樣的算法迭代到實際應用當中去了。
這段時間就是先通過仿真獲得基礎模型,然后在現實中對這個模型做一些現實真實數據的恢復。最終可能通過一兩次的抓握,就能夠完全重構原來需要做很多次嘗試的場景。比如已經可以辨認各種各樣的物體,甚至對於物體的位姿和形態進行判斷。
另外這個過程中魯棒性要有實時的校準,如果對它進行干擾,也能夠重新回到最正式的姿勢中去。我們不僅僅關注成功案例,也會關注失敗案例,比如説做一些易碎東西的夾取,人都是通過很多次的嘗試去學習。我們知道那些失敗的案例,也知道成功的案例,才能更快的達到最穩定的狀態。
因此我覺得通過硬件能力以及對於算法和數據的加成的發展,才能進入到一個快車道,最終如何滿足用户的需求,如何提供這些服務,英偉達提出了一套通用機器人的架構,我們非常認同。這套架構未來應該是更容易接入的,通過對於原始材料的調度和處理,可以調用不同的physical intelligence的engine,最終給用户交付的是我們的文明、我們的結果、我們的用户價值。通過這樣的通用架構來實現通用價值的落地。
通用性到底是如何完成的,到底有多麼的通用,我們分析了一下,世界上80%都是通用case,但是會發現人也很不一樣,比如説專業運動員,專業的手術大夫,他們的手其實跟人是不一樣的,他們的intelligence也是更專業化的,所以我們提出必須能夠從等體與軟件上共同來打通這樣一個解決方案。
日常任務可以分為下肢強度型以及上肢精度型。我們主要關注的是精細化的操作,偏上肢的運動能力,也會發現也符合二八原則。80%的日常任務,可以通過較為通用的模塊來實現。還有20%的特殊任務可以提供更專業化的更多的訓練案例來解決。為大家提供了manipulation as a service,我們認為精細化即服務這是一項更好的實現路徑,通過服務包括硬件、軟件、算法能夠為所有需要做精細化操作的場景提供通用服務。今年年底會帶來這樣的服務,敬請大家期待。
最后介紹一下我們公司,我們一目科技,2015年成立於美國的硅谷。我們這個名字的來源其實有點意思,在五億兩千五百萬年前,其實是三葉蟲發展出了第一個能夠感光的眼睛,帶來了整個寒武紀生物的大爆發,帶來了所有智能生物的發展,我們一目就相信自己希望成為那個人工智能里的第一隻眼,能夠推動整個人工智能向未來具身智能向更高更快的Scaling law發展,而做出自己的貢獻,希望跟大家進行一個合作。
謝謝大家!
新浪聲明:所有會議實錄均為現場速記整理,未經演講者審閲,新浪網登載此文出於傳遞更多信息之目的,並不意味着贊同其觀點或證實其描述。
責任編輯:李思陽