熱門資訊> 正文
2025-08-19 10:11
來源:財經ThinkTank
具身智能是由物理載體的智能體在一系列交互中,通過感知、控制和自主學習來積累知識和技能,形成智能體影響物理世界的能力。這和ChatGPT不同,具身智能通過類人的感知方式來獲取知識,並抽象成為一種表達語義來理解世界並做出行動,與外界交互。這里涉及多個學科的融合,包括機械工程自動化、系統控制優化、認知科學、神經科學之類的,它是所有領域發展到一定程度后能夠涌現出來的一種能力
張正友,騰訊首席科學家、Robotics X實驗室主任、福田實驗室主任
文/《財經智庫》研究員 張燕冬 編輯/袁雪
張正友,堪稱世界級科學家。無論是世界上第一個用立體視覺做導航的機器人,還是世界上第一個基於神經網絡的人臉表情識別系統,或被國際上認為是一個革命性發明——在全球範圍採用的「張氏標定法」,作為全球著名的計算機視覺、多媒體和機器人技術專家,張正友在立體視覺、三維重建、運動分析、圖像配準、攝像機自標定、人臉表情識別、機器人導航等方面都有開創性的貢獻,在無止境的科學前沿尋求突破是他始終的追求。
如何科學看待具身智能?語言大模型的優勢和弱勢是什麼?人形機器人是具身智能發展的方向嗎?具身智能面臨怎樣的挑戰?如何構建具身智能的基礎設施和更優生態?帶着諸多問題,《財經智庫》走訪了騰訊首席科學家張正友。
張正友認為,具身智能與人形機器人不是同一概念,中國的具身智能生態還處於初級階段;而立足場景驅動科技進步並影響社會、解決其現實問題纔是有效路徑;促進「身」「智」在動態的環境中協同進化、落地,創造人機互動的更優形態是目標。
多模態知識結構的積累
《財經智庫》:1985年你浙大畢業后去法國留學,於1990年獲計算機科學博士學位,后又分別在法國國家信息與自動化研究所(INRIA)和日本先進通信研究院(ATR)工作,1998年起任職於微軟研究院20年,2018年回國任騰訊首席科學家。33年的海外經歷,哪些關節點對你較為重要?
張正友:我的人生軌跡很簡單。本科在浙大,第一次接觸計算機,那時用的還是穿孔卡機與計算機交互,計算資源缺乏,PDP-10、PDP-11都從國外進口,一臺計算機很大,占房間的大部分空間。今天已從大型計算機到PC普及,到互聯網興起和智能手機時代,再到現在穿戴式或陪伴設備的涌現,都説明計算能力從最初固定的時間、程序和地點慢慢變得移動化,隨時隨地都能獲取想要的信息。
我一開始學的就是人工智能,早期機器人跟AI是同一領域,機器人、計算機視覺以及語音識別不區分。那時大家覺得AI可以很快實現,但隨着時間的推移發現太難了,就把機器人、計算機視覺、語音識別和自然語言處理從人工智能里獨立出來,而人工智能則聚焦於規則或案例的推理和決策,希望各個擊破。分久必合,經過40多年,各個領域都有巨大進展,人工智能和機器人開始融合了。我讀碩士時做語音識別,先將語音信號轉換成頻譜圖,搞清每個音素在頻譜里的特徵及變化,然后用基於規則的人工智能系統來識別音素,形成單詞句子。語音太簡單了,是一維信號,加上頻譜以后變成二維,我便開始做三維計算機視覺,直接用於機器人。
《財經智庫》:那時就為機器人導航?
張正友:對。那時的機器人是輪式的,上面裝三個攝像頭,是世界上第一個用立體視覺做導航的機器人。我參與了歐洲共同體項目以及火星機器人的研發,發明了ICP算法(迭代最近點算法,一種點雲或曲面對準方法)。這是一種基礎算法,以3D建模為火星機器人做導航,這套算法至今還在自動駕駛和場景重建等領域使用。
后來我轉向純粹的3D視覺、攝像機標定研究。當時利用學術休假去日本,研發了世界上第一個基於神經網絡的人臉表情識別系統。1998年到微軟研究院,繼續做人臉表情識別,用了更多數據和深度神經網絡,做成雲服務。在微軟,研發了很多東西,包括現在全世界都在使用的「張氏標定法」,這是計算機3D視覺領域中一種經典相機標定方法。
嘗試新方法成為我持續的動力。在法國做攝像機標定的方法比較複雜,到了微軟后我就想開啟3D視覺新研究,「張氏標定法」便出現了,其好處在於簡易,只要打印一個2D棋盤格就能得到攝像機參數。這在國際上被認為是一個革命性的發明,很快在全球範圍採用。
《財經智庫》:這種方法好像也廣泛應用於機器人視覺、三維重建、SLAM等領域,將三維視覺與人臉建模和數字人結合?
張正友:確實,數字人研究起始於微軟。那時電腦還沒有攝像頭,USB攝像頭剛出來,分辨率很低,花了幾年時間研發,將數字人技術用於微軟的Xbox。發佈時,比爾·蓋茨用我的小樣做了演講,宣佈微軟進入Xbox時代。
《財經智庫》:這些技術在學科上如何劃分?
張正友:介於視覺和圖形學。我們在世界上最權威的刊物和會議上發表文章,例如CVPR(計算機視覺、模式識別領域規模最大、投稿量最多的頂級會議之一)、ICCV(視覺領域的旗艦會議,側重基礎理論與跨學科應用)、SIGGRAPH(計算機圖形與交互技術領域的頂會)。我是一個不滿足現狀的人,先做計算機視覺,后做神經網絡,然后到美國從計算機視覺轉到語音識別再到多模態技術等。在語言識別領域還發明瞭「骨導麥克風」,即通過骨傳導麥克風,即使在很嘈雜的地方也可以將自己講話的聲音準確識別出來。
《財經智庫》:你認為僅瞭解計算機視覺還不夠?
張正友:對我來講,最終目標是人和機器人的交互,視覺只是一個模態,顯然是不夠的,那就必須拓展自己,所以轉向語音識別。但一般人不會從一個領域突然消失,脱離多年積累進入新領域,或者説,丟下已經功成名就的領域,開始一個陌生領域的開拓。好在微軟研究院氛圍寬松,領導支持我轉型。我花了七年時間做語音處理和語音識別。
從計算機視覺,到語音處理和語音識別,再結合所有,就是現在多模態的意思,其中一個應用就是視頻會議。
《財經智庫》:視頻會議最早從微軟出來?
張正友:視頻會議微軟做得很早。像Skype,以前叫Office Communicator,現在叫Teams。我做的視頻會議設備叫Roundtable,360度視頻加麥克風陣列。一個會議室只有語音不行,因為不知誰在講話;結合Roundtable設備后,就可看到講話人以及清晰的語音。語音和視頻結合是多模態的起始,很重要,后來成爲了產品。在微軟,我基本每年向蓋茨匯報兩至三次,記得最后一次向蓋茨匯報時,他跳起來説,「這就是我想要的東西。」
《財經智庫》:剛纔你提到微軟也重視「Paper」?
張正友:蓋茨是少有的真正具有胸懷的人。微軟研究院成立於1991年,那時人工智能雖有概念,但並未發展和應用,研究院關注的就是人工智能系統研究,從某種程度上説,蓋茨預見到了計算的未來,他強調研究技術,讓計算機能看、能説、能聽、能思考。
微軟研究院不以商業為目的,旨在提升整個社會人工智能的能力,並推進技術的進步。但研發做得如何,需要權威同行認可,否則得不到驗證和衡量。這是微軟鼓勵發表文章的原因。我加入微軟時,計算機視覺並未在微軟的產品里運用,后來纔出現了產品化的視頻會議和Xbox。
《財經智庫》:也就是説,儘管沒有盈利和產品要求,但隨着研發的深入,自然而然出現了產品。
張正友:對。從商業角度,養一批研發人員,不一定馬上有結果,離產品很遠;直接購買外面的技術成本可能更低。兩種路線由首席執行官或創始人定奪,而對蓋茨來説,雖然從商業角度不值得,但推動整個社會的發展同樣重要。
從一個領域跨入另一領域,雖屬同一AI大領域,但里面細分領域很多,需要不同領域的知識。之所以能夠跨界,是因為微軟研究院寬松的環境和充足的經費。只要你有激情,就讓你嘗試。這是微軟鼓勵創新的優勢。
《財經智庫》:在AI領域,視覺和語音結合,處於大領域的什麼位置?
張正友:現在的大模型,已從語言模型到多模態了,即把語音、視覺、文本結合。人機交互本質上就是多模態。前面説過,最初機器人和視覺、語音在人工智能領域合為一體,即語言、眼睛、耳朵、聲音、動作為一體;后來發現每個細分領域都很複雜,漸漸地計算機視覺、語音、自然語言處理等都成為獨立的研究領域。現在各領域開始融合,像NeurIPS(一個跨學科的神經信息處理系統會議)包括視覺、語音、文本,機器人也慢慢進入了。本質還是多模態情境。
《財經智庫》:你如何評估自己國外30多年,在技術、學術上所奠定的基礎,以及一些認知方法論?
張正友:我對人機交互始終有興趣,很早就開始關注了。從計算機視覺到人臉識別、語音,再到視覺和語音融合,再到機器人,有些研究屬認知科學和神經科學。在此過程中不斷開拓,而AI機器人是我一以貫之的傾注,其本質是交叉科學,如計算機視覺已與許多領域產生交叉,為理解圖像需要結合語言進行處理;深度學習也不僅是大數據遊戲,而是如何將其與幾何概念和物理信息結合。未來,各學科會以更加多樣化的形式融合。
《財經智庫》:能否這樣理解,你作為全球著名的計算機視覺、多模態和機器人技術專家,在AI方面,尤其在立體視覺、三維重建、運動分析、圖像配套、攝像機自標定、人臉識別、語音處理和機器人導航等方面都有開創性的貢獻。你曾經提出過一個「釘子理論」,在如今邊界模糊的創新過程中,如何更好理解該理論?
張正友:融合就更需要「釘子理論」,即便你的思考再宏大,也必須在某個領域鑽研下去,然后再融合。橫表示知識的寬度,豎是技術的深度。假如只有寬度,只知皮毛,那麼這顆釘子打在牆上很容易就會被拔下或替代。以我個人的經歷,要成為一顆扎得牢的「釘子」,先要往深里鑽,到一定程度再擴展自己的「廣度」。如果對某個領域理解不夠深,很難找到與另一個領域的結合點。
《財經智庫》:在系統性思維的框架下理解「釘子理論」,專注「點」,但不失於「系統」,也就是中國哲學中的Paradox。
張正友:點面之間的關係至關重要,我會考慮如何將系統性思維與場景驅動相結合,即在某一場景下去思考哪些問題需要解決,關鍵技術究竟是什麼,如何突破?如此可以帶動一批應用,像「張氏標定法」和火星機器人定位技術等,都是在如此思維中產生的。但之后又需要用抽象的思維描述技術,在場景中概括出理論,並使之適用於其他領域。在場景中找技術突破口非常重要,這也是我現在用「養老」場景去牽引機器人發展的思路。
語言大模型的優勢與弱勢
《財經智庫》:你想用場景驅動技術並推動社會變化,里面藴含着對科學和技術的認知與追求,以及長期在國外形成的思維方式和方法論。33年時間可謂長矣!回國后,無論是你提出的虛實集成世界,還是ABCDEFG,包括層次化的控制研發智能機器人,或SLAP範式⋯⋯其邏輯關聯是什麼?
張正友:於我而言,技術是第一位的。我要全身心投入做基礎研究,研判技術發展方向,做出突破性技術,持續保持在世界前沿。國內也講重視基礎研究,但往往更多是應用基礎研究,有太強的目的導向。現在講「卡脖子」,其實「卡脖子」技術不是基礎研究。
《財經智庫》:「卡脖子」不屬於基礎研究範疇,是產品。
張正友:即使這個「卡脖子」解了,新的「卡脖子」又來了,因為沒有從源頭去思考如何解決這些問題。中國改革開放40多年發展很快,追趕也快,有很多創新技術,但不少原創性核心技術還是被國外掌握。
為什麼選擇了騰訊?馬化騰2017年決定要做機器人實驗室,我2018年3月回來。馬化騰有預見,覺得機器人是一個發展方向。從技術領域來講,我覺得自己很合適,我對機器人情有獨鍾,正好是個機會;同時,騰訊企業文化跟我個人做事風格比較匹配。更為重要的是,中國社會老齡化問題嚴重,而機器人最有可能突破的場景就是養老領域。
《財經智庫》:在真實世界里,很難看到一個真正意義上的人機交互的機器人,大語言模型的爆發能讓人類所期待的機器人很快成為現實?
張正友:機器人從自動化進階到智能化,需要實現反應式自主和有意識自主去應對變化的環境,需要一種新的控制範式,類似於人類的認知模式。人的思考可分為兩個系統,一是自動的、快速的、直覺的系統;二是需要推理、複雜計算等費腦力的系統。完善的機器人系統也需要不同層級來處理不同級別的決策,或理解不同層級的感知信息。我相信,AI和人的未來將會是多模態的交互方式,而且AI要能主動地感知周圍的環境。目前大模型還不能稱之為完整的世界模型,多模態大模型肯定是通往AGI的必經之路,但還有很多工作要做,而且很可能不是現在的多模態大模型這樣的架構。
《財經智庫》:你剛纔闡述的兩種系統思維,是基於諾獎得主Daniel Kahneman的一本書《Thinking, Fast and Slow》?
張正友:是的,事實上,人腦有95%的時間都在系統1,只有很少和複雜的任務時才需要調度系統2,這是人腦能夠如此高效解決問題的原因,連一個GPU消耗的能量都不需要。
《財經智庫》:基於此,你提出了ABCDEFG的目標方向?
張正友:智能機器人的ABCDEFG分別對應的是,A是AI,機器人必須能看、能説、能聽、能思考;B是機器人本體,要探索怎樣的本體最適合人的環境,最簡單的想法就是人形機器人,但我認為還可能有更好的形態;C是精準控制;D是發育學習,因為機器人要在跟人和環境的交互中不斷演進,要在失敗中學習提升自己的能力,就像一個小孩的發育成長;E就是EQ,機器人在交互中必須要理解人的情感,同時要把自己理解的東西呈現給人,這是雙向情感理解,擬人化;F是靈巧操控,要掌握包括使用工具,替人類完成物理任務,否則機器人只是聊天工具;G是守護天使,機器人不僅僅是單獨的本體,還需要和部署在環境里的智能傳感器和其他機器人合作,通過雲跟世界互聯,使得機器人成為人類的保護天使。
《財經智庫》:這個目標與方向是否太理想化?使機器人像人,能最終落地嗎?
張正友:完善的機器人系統需要借鑑人類的思維方式。講到自主,有兩類:一是反應式自主,比如走路時絆了一跤,可以很快恢復平衡,或是抓的杯子打滑了要捏緊一點;二是有自主意識,例如規劃如何開門或下樓。為實現這個自主,傳統方式通過感知,感知環境后做一個規劃,規劃后再行動,行動后再感知,其致命問題就是它不可能解決反應式自主,因為不可能那麼快,所以我提出了一個「SLAP」範式。
S是感知,L是學習,A是行動,P是計劃。其中,學習很重要,學習可以滲透到感知、行動和計劃;還有就是感知和行動要緊密連接。只有這樣,才能感知到突發事件,如摔一跤可馬上恢復平衡,同時對常規行動不需要進入上一層計劃。與人的認知相比較,就是剛纔所説的系統1和系統2,反應式自主對應了系統1;而計劃邏輯思維,也就是有意識的自主就對應了系統2。
《財經智庫》:明白了,你是希望通過機器的訓練和交互,將較慢的思維,即需要花費精力的系統2也像靈活、快捷的系統1一樣,做出快速反應。
張正友:目前還很難做到。雖然還沒有一個明確的研究路徑,但大家都投入到大語言模型,因為這條路看起來走得通,而且有效果,把所有人類的數據整合到一個大模型里,能夠產生出一定的「智能」。兩年前我説大語言模型還不夠,只是系統1,需要考慮更上一層的系統2。那時,無論是ChatGPT或其他大語言模型,只要給它一堆數據,馬上可以預測,不論問題難易幾乎需要同樣的時間回答,但實際問題的解決不是這樣的。容易的很快可解決,複雜問題則要上升到一定高度,大家都在思考採用何種新的研究方式。
《財經智庫》:OpenAI大模型ChatGPT-o1出來之后,是否有希望走通這條路?
張正友:OpenAI在2024年9月推出ChatGPT-o1,有推理了,但它未公佈具體怎麼做。梁文鋒的DeepSeek今年1月也做出來了,可以看出大家開始往系統2發力了。
這是革命性的變化,能理解人類了,這是我對DeepSeek的看法。儘管OpenAI先起步,但DeepSeek把深度思考複製出來了,並且開源,同時計算成本大大降低,讓一般人用得起,這是非常重要的創新。美國也開始講,OpenAI需要開源一些東西,最近也有一些開源模型推出。
開源和閉源是共生的,就像智能手機,既有安卓也有蘋果;大語言模型閉源開源都存在,閉源可能做的更極致一點,也可以借鑑一些開源的東西;而開源讓對技術有追求的人不斷創新,成本低,迭代更快。
到了這個層次就需要看一些認知科學的內容。例如一個需要思考多次才能產生的結果,思考多了就可視為直覺,相當於從系統2變成系統1了。這就像人類的跳水,最初需要去思考去鍛鍊,將水花壓小,是系統2,前面跳幾次效果不佳,慢慢越來越好,成為肌肉記憶,邏輯思維變成直覺,就變成系統1。機器人也應該如此。
「我們的目標就是人和機器人共生、共存、共贏,具身智能絕不意味着替代人類,而是為人類服務。」
具身智能一定是人形嗎?
《財經智庫》:具身智能越來越成為人們的關注。我們去過杭州的宇樹科技、雲深處等企業,這次《財經智庫》深圳調研又去了優必選、眾擎、越疆等。具身智能一定要人形嗎?
張正友:具身智能與人形機器人是兩個不同的概念。機器人Robot,其含義是一個強制的勞動力,即苦力。IEEE定義Robot就是能感知的自主機器,從來沒説過要像人形,人形在英語里叫Humanoid。但當中文把Robot翻譯成「機器人」后,馬上就帶着一層含義了,如果翻譯成自主機器就不會如此。但這一翻譯已經注入了人們對機器人的情感,好像機器人不像人就不是機器人。
《財經智庫》:1950年,圖靈在《計算機器與智能》中提出「機器能否思考」的哲學命題,預示了智能體通過物理交互實現認知的可能性,但受限於當時的技術,未能取得突破;后來布魯克斯提出「包容式架構」,主張智能應由身體與環境的實時交互自然涌現,成為具身智能的奠基性理念。
張正友:具身智能相對非具身而言,像ChatGPT是沒有身體的智能。於我而言,具身智能體就是一個智能的機器人,或者一個智能的數字人。但智能是否需要具身是有爭議的,這個爭議主要圍繞認知科學展開。一部分人認為許多認知特性是需要生物體的整體特性來塑造生物體的智能;也有一部分人認為智能不需要身體,因為主要面臨的是信息處理、問題解決和決策治理等任務,這些都可以通過軟件和算法實現。具身智能認為「身」和「智」要圓融統一,與環境的交互中涌現出智能。
剛纔提到圖靈1950年的文章,即探索如何實現機器智能,可以看到,有一部分人認為可以用一些非常抽象的行為,比如説下棋來實現智能;還有一部分人認為,機器最好要有一些器官,比如麥克風和話筒來幫助我們更好地實現機器智能。但圖靈自己也説不清楚哪一類更好。OpenAI最早也是買了上百臺機械臂,希望直接用機器人來實現AGI,經過一年多的努力發現這條路走不通,主要是機器人操作的數據不夠多,所以放棄了,把精力集中在基於文本的大模型,最后成功開發了ChatGPT。
《財經智庫》:近幾年我們調研了一些機器人企業,像物流行業,自動化就行,卻偏偏用人形機器人,其實,機械臂的功能足矣,沒必要像人吧?
張正友:我平時很少講這一觀點。人形不是最終目標。從某種角度講,人形是以人作為參考,相對容易。但如何控制如此複雜的系統,纔是難點。從技術的發展來講,人形不一定是最佳的。以汽車為例,交通工具的進化如果僅從仿生角度來做,仿生出一個馬車來,效率遠遠比不上一輛汽車。同樣,從現在角度看,人形機器人對整個社會的發展不一定是最佳形式,因為現在人居環境大部分是平地,足式在複雜地面比較有用。我們實驗室設計的「Max狗」和「小五」,都是複合的,在高低不平的路面上可以用足式,比如上樓梯,但到平地后切換成輪式的。這只是一個例子,也是我們為什麼不做人形機器人的一些原因。
《財經智庫》:宇樹的人形機器人表現力強,優必選也是這樣,但它真要像人一樣感知,或許還有很長的路要走。你理想的機器人是什麼樣的?
張正友:理想狀態的AI機器人,還沒想好,正在探索。比如輪足,是要根據不同的場景需求而設定的。從技術發展曲線來看,相對人類的進化速度,技術是呈指數級上升的。人類的雙足是在幾百萬年間讓人類能夠在複雜環境中生存下來而進化形成的形態,但今天的人居環境基本都是平地,沒有必要使用操作效率低下的雙足。為什麼我們實驗室去做Max?這個機器狗是既有輪子又有腿,不是為仿生,而是去探索有沒有更好的形態能夠高效地在人居環境中行動,更好地為人類服務。
再例如,人類是不可能進化出屏幕的,但機器人配備了屏幕,就可以讓其與人的交互效率提升3倍。為什麼不把現在的技術用到機器人上面?過早將終極形態鎖定在「人形」上,可能會限制行業的想象力。
《財經智庫》:在國內,人們總把具身智能與人形機器人等同起來。近幾年,國際上如特斯拉發佈擎天柱,機器人的發展轉向人形機器人與通用機器人;2023年谷歌發佈RT-1,具身智能浪潮撲來;再加上年初杭州「六小龍」出現,人形機器人堪似方向。
張正友:中國為什麼這麼多人做人形機器人,都是被馬斯克誤導了。馬斯克確實要做人形機器人,大家跟隨他,卻沒有認真思考人形機器人用來做什麼?我的猜測,馬斯克做人形機器人的目的不是爲了地球,而是爲了他的火星計劃,人形機器人更適合火星複雜的地面情況。就如其火箭計劃,短期內難以直接去火星,那麼就先通過一些發射衞星產生經濟價值,在此過程中不斷提升火箭技術。馬斯克的人形機器人亦如此,通過車間作業不斷提升人形機器人的能力。如果僅僅爲了工廠所用,就不需要做人形。
而我們要從本質上去思考,到底機器人在人居環境里是什麼樣子。
《財經智庫》:七年來你們一直在對機器人的前沿進行探索。從2018年平衡自行車的動態控制,到2021年Max實現腿輪一體化的四足機器狗,以及2023年靈巧手操作和栩栩如生的運動步態,再到去年下半年的養老機器人原型「小五」⋯⋯從未提過以商業化為目的。
張正友:「小五」機器人是騰訊實驗室第五代完全自研的機器人,這也是其名字由來。這個機器人前面安裝腳掌,走樓梯時變成足式,到平地時切換成輪子。這樣設計的考慮是爲了穩定,這是在養老環境里的關鍵。
我們曾經考慮過輪椅跟機器人結合,可以變形能摺疊,或者智能輪椅加上一些感知,可自動避障和行走,但輪椅的功能非常專業且屬醫療器械,需要批准。因此我們還是希望做通用的智能機器人完成多樣任務,機器人可抱老人,推老人到某些地方;可以送藥、按摩、對話;假如能力強,還可以幫人打針等。當然,我們實驗室的戰略方向始終是具身智能機器人前沿技術探索,儘可能做到實用,並讓技術快速迭代,商業化需要不同的技能。
《財經智庫》對話張正友
具身智能面臨的挑戰
《財經智庫》:鑑於人形機器人的表演,在老百姓眼里,似乎人形機器人很快就會進入家庭,替代人了。
張正友:有人認為,大模型已經出現了突破,放到機器人上馬上就能夠實現自主,實際上不那麼簡單。打個比喻,相當於20歲大腦放在3歲孩子身上,機器人雖然擁有一定的行動或移動能力,但操作能力較弱,感知也難以進化。真正的具身智能要能自主學習和處理問題,對環境變化和不確定性能夠自動調整和規劃,這是我們認為具身智能能夠通往AGI或者打造通用智能機器人非常重要的環節。
只有將具身智能講清楚,才能搞清楚我們處於怎樣的階段,面臨怎樣的挑戰。具體來説,具身智能是由物理載體的智能體(智能機器人)在一系列交互中,通過感知、控制和自主學習來積累知識和技能,形成智能體影響物理世界的能力。這和ChatGPT不同,具身智能通過類人的感知方式(視覺、聽覺、語言、觸覺)來獲取知識,並抽象成為一種表達語義來理解世界並做出行動,與外界交互。這里涉及到多個學科的融合,包括機械工程自動化、系統控制優化、認知科學、神經科學之類的,它是所有領域發展到一定程度后能夠涌現出來的一種能力。
《財經智庫》:這也是人機互動的核心吧。我曾經請教過「雲深處」創始人、浙大教授朱秋國如何看待波士頓動力。他説,波士頓動力的優勢還在於Action,而不是感知。
張正友:是的,具身智能面臨諸多挑戰。首先,複雜的感知能力,包括視覺、聽覺與觸覺,現在大模型里只包括了視覺、聽覺,還沒有觸覺。觸覺非常重要,是機器人複雜感知能力的一部分,具備觸覺才能感知和理解周圍不可預測的非結構化的環境和物體;其次,強大的執行能力,包括移動、抓取、操作,以便能夠與環境和物體進行交互;其三,學習能力,能夠從經驗和數據中學習與適應,以更好地理解和應對環境的變化;其四,自適應能力,能自主調整自己的行動和策略,以便應對不同的環境和任務。當然,並不是説這些能力疊加起來就能達到具身智能,這些能力還需要有機、高效地協作融合,才能真正達到人類所希望的具身智能。還有,具身智能所需要的數據非常稀缺,OpenAI直接通過機器人達到AGI的想法就是因為數據缺乏而折戟,數據的稀缺性仍是很大挑戰,在實際場景中收集數據還需要保護用户的隱私安全。
《財經智庫》:你説過大語言模型,把世界上所有不同文化的人類文明全部放在了一起,涉及很多能力,但機器人數據很少,人們不可能像大語言模型一樣有這麼多數據驅動機器人。是否機器人要通過跟環境交互來演化?
張正友:這種演化,如前所述SLAP,我們將此分為四部分,先是行動包括運動能力和操作能力;然后是感知,感知和行動連在一起,為系統1。規劃是系統2。學習較為特殊,它貫穿每個模塊,即通過跟環境交互不斷地提升其能力,機器人也如此。
另外,看一下人和人溝通的場景,溝通模型是加州大學心理學教授Mehrabian在1971年寫的一本書《Silent Message》里提出來的,任何人之間的交互,靠文字或文本傳遞信息只佔7%,其他部分,聲音佔38%,人的肢體語言、表情、視線佔55%,所以完全靠文本,想要實現AGI根本不夠。所以我還是認定原生的多模態大模型是通往AGI的必經之路,現在人們將其他模態和文本模型對齊,肯定會丟失信息。
《財經智庫》:從技術層面,就拿你們實驗室的研發來説,缺乏的是什麼?面臨的問題是什麼?
張正友:從實踐角度,是觸覺和靈巧手。剛纔講到多模態大語言模型,文本是標準的,攝像頭和麥克風經過40年發展,也是標準的,但迄今還沒有一個標準的觸覺傳感器。觸覺跟手結合很關鍵,如果沒有觸覺,不可能安全攙扶老人。只有機械臂和機械手上都有觸覺傳感器,才能知道合適的力度。
靈巧手是否也要像五指手呢?不一定要仿人,但到底怎樣優化機械手,也是很複雜很關鍵的。相信鑑於多模態大模型的基礎,加上攝像頭、麥克風、有觸覺的靈巧手,慢慢就可以跟環境交互。機器人跟智能結合就可以產生更多東西。
《財經智庫》:能否這麼理解,ChatGPT,把人類的知識強迫放進去了,但還沒有能力隨着環境交互而不斷演化,但機器人肯定是要演化的,社會上「機器人馬上就要代替人」是一種誤解。
張正友:代替人什麼?這是一個基本問題。早期我們覺得機器人很快會代替人的體力勞動,但后來發現很難,還需時日。從資本角度來講,更多的應用場景是工業,工業場景明顯是可以較快完成對人的替代,但工廠里80%-90%工作自動化了,人怎麼辦?剩下的是柔性操作和質量檢測,用現在的智能機器人代替或許可以。機器人的定位應該是做一些人做不了的事情,比如在養老領域的護工短缺嚴重問題,當人們不願意做這類工作,機器人能否替代人。
《財經智庫》:機器人不是去替代人,而是去做人不願做或不能做的事情。
張正友:有些人是希望替代人,但我希望機器人去做人不能做或不願意做的事,或者能力不夠的地方。智力部分確實能夠被AI替代掉,但在意識及情感方面,機器人或AI能夠模仿部分,細微之處仍然難以企及,它畢竟不像人那樣會產生共情,機器從外面加裝一些知識,不是自然發育而來,如人類那樣進化的過程。所以人和人之間的情感與理解部分,不會被機器人所替代。
構建具身智能基礎設施
《財經智庫》:近日,你在世界人工智能大會上發佈了三個具身模型:多模態感知模型、規劃模型和感知行動聯合大模型,以及一個囊括這三個具身模型和雲計算能力的Tairos開放平臺,該平臺可否稱之為「具身智能」的基礎設施?
張正友:這是騰訊首次基於機器人實驗室七年以來的探索和認知向社會和企業開放。從2018年起,騰訊機器人實驗室的研發已涵蓋了操作、運動、感知、智能、硬件設計等機器人核心技術棧,通過這一系列探索,已成為國內少有的具備全棧式機器人技術能力的團隊。我們深刻理解機器人硬件與具身智能的共生關係,軟硬件不是簡單拼裝,而是從傳感器到大小腦再到執行器的系統性融合創新。
如前所述,機器人時代需要具身智能的基礎設施和構建其生態體系,騰訊想扮演這樣的角色。就目前階段而言,無論機器人的具身模型還是硬件形態,都還處於探索階段。
手機系統主要有安卓和IOS,IOS是蘋果的封閉系統,安卓則是開放系統,上面有一批應用開發者,各種各樣的APP在安卓和IOS上開發。目前智能機器人生態構建還有很多不確定性,但我認為會朝着類似於智能手機的生態發展,有一兩家閉源平臺系統,特斯拉走的路類似於iPhone,本體、智能、開發應用都是自己完成;騰訊則希望是開放平臺一部分。
現如今機器人生態屬於起步階段,機器人的硬件廠家、平臺廠家,以及應用的開發商還沒有形成明顯的分工層次。無論是優必選、宇樹科技、雲深處,基本上都要自己去開發上面的應用,因為不開發應用就沒有價值,換言之,只有找到應用場景,與其結合,才能創造價值。企業要活下來,仍需很多科研機構,或者專業性平臺繼續做具身智能研究。
《財經智庫》:「具身智能」這個概念早已有之,但被大眾熟悉還是近兩三年的事,國內很多創業公司涌現出來了,也挖了你們很多人,你們是否認為目前構建生態的條件已經具備?
張正友:我們實驗室有一些人,想去創業,或者被人挖走,很難避免。他們即使出去也是推動行業的發展,會成為機器人生態的一部分。當然還有更多同學認可研發具身智能開放平臺的戰略,選擇留下來和實驗室一起共同成長。實驗室從零開始,我們不斷補充新鮮血液,沉澱並積累技術,無論是硬件還是軟件,開放性平臺的條件已經具備,同時具身智能的整個生態發展也需要這樣的平臺。
《財經智庫》:這個平臺是基於你前面強調的SLAP體系,將其模塊化?
張正友:確實,這個開放平臺里有感知模塊、規劃模塊、感知行動模塊,沉澱下來就提供給外部企業。有些企業可能缺乏感知,可以採用我們感知模塊;有些企業可能感知做得不錯,但行動部分不行,可以用我們感知行動模塊,如眾擎,行動不錯,但規劃部分還缺乏,那就用我們的規劃模塊。將其模塊化,互相之間有聯繫,大家都可以用;同時跟我們合作的企業,一起打磨模塊,構建健康的具身智能生態環境。
目前已經進化形成了一個更為完整、強大的核心技術體系。首先是規劃大模型,相當於人的左腦。讓機器能理解複雜目標是什麼,然后拆成一個個可執行的策略步驟,比如陪行動不便的老人散步,需要先去拿輪椅,把老人抱到輪椅上,然后推輪椅。其次是感知的模型,相當於人的右腦,其作用是讓機器人真正瞭解自己所處的環境,如輪椅在什麼地方等。其三是感知行動聯合大模型,相當於人的小腦。這個模型打通了從「看見」到「做到」過程的關鍵環節,比如在一個狹窄的過道里,推輪椅要安全避開其他行人和障礙物。
《財經智庫》:平臺這種層次化與模塊化的架構,同時還可以聯合優化,期待看到你們的平臺不同功能的大模型能夠相對獨立地發展和更新,做到高效協同。目前國際上,你覺得具身智能的發展趨勢怎樣?
張正友:這是逐步將具身智能推向現實世界通用應用的關鍵路徑——因為真正的智能機器人,不僅要理解人類的世界,還要在這個世界里安全、穩定且高效地完成任務。
談到國際,現在已有很多變化,比如波士頓動力,主要關注運動能力,但它的方法比較傳統,處於轉型期。現在有一家創業公司,叫Physical Intelligence,希望做一個類似於機器人的小腦,即感知行動部分,偏軟件,自己採數據,也從不同廠家採購一些數據。還有一家Figure,幾乎都是圍繞着感知行動,閉源的。Physical Intelligence模型是開源的,已經發布了π0,公佈了π0.5,目前還沒有開源。
《財經智庫》:阿里走出很多創業公司,對杭州生態發展產生了很大影響。期待你們能夠超越「人形熱」,構建人機共生的更優形態。
張正友:現在有些機器人公司宣稱有全棧式服務能力,我認為是不太可能的,因為這需要大量的資金、人才和技術。在整個生態還沒建起來的環境下,創業公司又不可能像特斯拉這樣有雄厚的實力形成一個閉源系統,非常困難。如同眾多大模型創業公司,機器人企業也會經歷Gartner曲線過程,一開始覺得有希望,到后面會冷卻下來,經過低谷后,才能穩定發展。
我認為還是應該靠場景驅動科技發展和社會進步。中國養老場景足夠大,一片藍海,具身智能在養老環境里可能會最早突破。養老場景,不是説直接進入家庭,有可能先在養老院里實現,環境比較可控。我還是希望機器人生態能夠起來,去解決真正對社會有影響的問題,養老問題是中國社會最為嚴峻的問題之一。
《財經智庫》:你抓住了本質和內涵。
張正友:有點理想主義。我們的目標就是人和機器人共生、共存、共贏,具身智能絕不意味着替代人類,而是為人類服務。機器人到最后就像一個新物種,像我們的寵物,跟人和平共處,為人服務。
《財經智庫》:發現你經常看一些神經學、人類學、心理學的書,自己還翻譯《道德經》,這也是更多瞭解人類發展,包括人的心理和感知的重要部分吧。智能機器人再往下發展,就要更多吸取人的感知和反應,才能完成人機交互的過程?
張正友:對人的瞭解是基礎。在數據感知下,找到突破口和新範式。新範式應該優於大語言模型,大語言模型是直接注入數據,但人跟機器的交互,像情感的理解、意識之類的,不應該依靠文本表達,而是在人和機器人交互過程中不斷提升能力。如犯個錯誤,它能夠從思辨中學習,所以ABCDEFG里,其中D就是借鑑人的認知科學,人是從嬰兒一步一步發育起來的,機器人要提升其操作能力、體力和智力,提升其交互能力,也需要不斷發育,當然目前還沒找到好方法,這是一個長期的過程。
從另一角度看,還是有希望的。人的認知和知識無法通過代際直接複製,只能從頭發育,但機器人所學的東西可通過數字形式直接複製到另一個機器人上,機器人之間通過信號傳遞和交互,共同發育就會非常快。
人類再過幾百年、幾千年,變化不應太大,壽命可能會越來越長。而機器人要在人類需要的時候,為人類服務。在我的有生之年,絕對有信心,年輕人更應有信心。
來源|財經雜誌
整理 | 財經ThinkTank
責任編輯:梁斌 SF055