繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

肖仰華教授:具身智能距離「涌現」還有多遠?

2025-06-27 19:28

以生成式AI為代表的新技術浪潮日新月異,正帶來一場深刻的技術、商業與社會變革,推動人類社會從信息社會向智能社會轉變。全世界熱切期待AI到來的同時,也非常關心人工智能將帶來哪些新機遇、新挑戰。 

為此,我們發起了一項《AI & Society 百人百問》研討,廣泛邀請AI技術大咖、AI獨角獸創始人、AI投資人,以及社會學家、心理學家、國際關係專家、科幻作家等,用多元視角,深入研討人工智能技術引發的廣泛影響,發掘AI時代的共識和非共識,共同推動人工智能始終朝着「助人發展,與人為善」的方向可持續發展。 

本期,我們非常榮幸地邀請到肖仰華老師,為我們開啟一次AI的思想遠航。

復旦大學計算與智能創新學院教授、博導,上海科學智能研究院AI科學家,上海市數據科學重點實驗室主任。長期從事大數據、認知智能研究。 曾榮獲ICDE2024十年影響力論文獎、ACL2023傑出論文獎。發表 CCF-A 、B 類等論文 300 余篇。出版學術專著與教材三部。曾獲華為、阿里、美團等機構的科研獎項。擔任 Applied Intelligence 等多個國際期刊副主編或編委。 

精華要點:

1.過去幾年人工智能的發展呈現出兩條非常清晰的脈絡,一條是以AIGC或者叫做生成式人工智能為代表。另一條是以具身智能為特徵的發展方向。其中,為什麼我們説AGI是一場技術革命,要從三個基本方面去看:一是這個先進技術是不是具有基礎性。二是它對生產效率的提升。三是對整個社會上層建築的影響。

2.具身智能還有下一個階段,就是身心協同。其實在哲學層面很早就思考過這個問題——人類水平的智能何以誕生?可以想象一下,你身體很舒暢的時候,你的心情就很開心。所以身體是會對大腦有一定的塑造作用,我們運動,跑步到一定程度,大腦就會分泌多巴胺,身體對大腦是有着一定的影響作用的,反過來大腦也會間接的影響身體,因此身體與大腦是雙向塑造的。

3.現階段的AI,數據的質量和訓練試錯的策略,成為最關鍵的兩個因素。也就是説,數據的規模讓位於數據的質量,算力的規模讓位於算法的設計。

4.我們業界一直有一個基本的觀點就是模型算法或架構是模型的下限,而數據決定模型的上限。從行業來看,央國企等大甲方的主要職責是要能夠把自己行業數據整理好和清洗好,這是發展行業AI的關鍵。

5.具身智能ToC端的應用的核心是感性能力,如果將來機器人真的要走進千家萬戶,它必須要能夠跟我們共情,能夠理解我的情感訴求,纔有可能真正在 ToC 應用當中發揮作用。

6.某種程度上,我們今天採集的數據離具身智能涌現出泛化性所需達到的臨界點,還相差非常大的數量級,相較於語言大模型可能不止兩三個數量級的差別。促進具身智能儘快接近臨界點有兩個思路:一是在數據量不足的情況下可以增加訓練量。二是弄清楚人類的泛化機制,包括人的舉一反三能力和歸納演繹能力。

7.從人工智能發展的思想源頭來講,我們到現在也沒有跳脱上個世紀五六十年代科學家給我們繪製好的三條路線框架——符號主義、連接主義和行為主義。這三個範式仍然是今天我們構建一個完整的人工智能解決方案的最最核心的思路。

8.具身智能機器人,將來一定走的是場景化的路徑,一定走的是任務化的路徑,可以規模化但集約化要適度,要考慮機器人的身體結構是否切實可行,而不是植入更多能力,這是違背產業邏輯的。

9.人的身體是一種賦能,但同時也是一種禁錮。人的身體能力在某種程度上限制了我們的物理邊界。人不可能依靠兩條腿跑步到月球,這恰恰是人的身體對自身的限制。將來我們要反過來思考,爲了讓AI不危害人類,我們要給AI配置身體,通過身體機能的限制,來保障人類安全。

10.有身體的AI確實能在物理層面上消滅人類,但更值得重視的是有智商的AI給人類帶來的風險和破壞更大。我們怎麼防禦AI帶來的風險:一是要做好風險評測,進而發展出AI風險監管師這一「拔插頭」的職業。二是要在方法上加大AI的對齊,首先要解決人類社會價值觀對齊的問題。

11.我們如何在智能時代去防止人的退化,我覺得要做幾件事:第一,要建立起人工智能應用的基本準則。其次,要大力發展教育學和心理學。第三,要向外求索,拓展我們的認知邊界,建立新的價值體系。

在未來的教育變革當中,我們不能爲了未來時代的這種高階能力而完全丟掉現在的核心技能。未來的工作不再是謀生手段,而是享受工作給你帶來的一種體驗。

全文實錄

AI&Society百人百問:

最近三年AIGC帶動了AI技術落地應用的浪潮,但業內也有觀點認為具身智能纔是AI發展的關鍵方向。這兩種技術路線現在可以説是並駕齊驅。您在大模型和大數據領域有很深的研究,從您的視角出發,請幫我們勾勒一下這個兩種技術各自共同具備的一些革命性的特質是什麼?

肖仰華:

過去幾年人工智能的發展呈現出兩條非常清晰的脈絡,一條是以AIGC或者叫做生成式人工智能為代表。另一條是以具身智能為代表。 

像ChatGPT這樣的大模型本質上都是以讓機器具備人類大腦的認知能力為目標,簡單來講就是讓機器學會像人類一樣思考。其實早在上世紀五十年代,圖靈在他的開創性論文(Can Machin e Th ink?)里就討論過機器能否像人類一樣思考這一深刻問題。也就是早在計算機設計之初,科學家們就在思考這個問題。今天的生成式大模型進展,本質上就是在回答這個問題。一定程度上,我們可以認為現在的大語言模型學會了人類語言的生成能力,以及語言背后的邏輯思考能力,甚至具備人類大腦所具備的很多認知能力。 

另外一條路線是具身智能,它的根本目的是讓機器習得人類身體所具備的感知和行動能力。人的智能除了大腦所呈現出的認知功能之外,還體現在人類身體五官感知世界的能力,比如,用眼睛去看,用耳朵去聽,用皮膚去觸摸;並進一步能夠且在感知能力加持下與複雜世界進行高效、流暢的交互。這種感知和行動能力主要是由我們的身體所決定與賦予的。因此,具身智能的根本目的是在於讓機器模仿人類身體感知和與世界交互的能力。 

這兩條技術路線都是機器智能通往AGI發展過程中必須經歷的兩個關鍵智能形態。事實上,認知智能與具身智能的發展還可能有下一個重要的里程碑式的形態 (或階段) ,就是身心協同。 

現在,機器有了大腦和身體,但在身心協同方面與人類智能還存在本質的差距。其實先哲們很早就思考過一個深刻問題——人類水平的智能何以誕生?當時就有好幾個對立的流派,比如,有人認為我們的大腦決定了我們的智能,但后來又發現身體對大腦有着不可或缺的塑造作用。我們可以想象一下,你身體舒服的時候,你心情就很高興;你身體很不舒服的時候,你的心情往往好不到哪里去。我們跑步到一定程度,大腦就會分泌多巴胺,讓我們興奮、開心。你的身體的能力還決定了你的行動範圍,從而從根本上決定了大腦的認知邊界。人類大腦的認知模式很大程度上是身體能力的某種隱喻。比如我們經常説,為人做事要拿得起放得下,這本質上是對手臂能力的一種隱喻。所以身體是會對大腦的功能有一定的影響甚至是塑造作用。反過來大腦也會影響身體,比如大腦時刻在控制身體與環境的交互。因此身體與大腦是雙向塑造的。 

現在看來,機器是否能夠邁過身心協同這關將至關重要。目前機器在身心協調方面仍然有各種各樣的問題。單獨看,當下的機器人的身體越來越發達,機器所能實現的感知與交互能力日益強大;大模型也越來越強,機器所能實現的認知能力也飛速發展。但是把這兩個組合在一起時,我們會發現機器人會做出非常「傻」的行為,這本質是因為機器身心協調能力的缺失。 

那麼上述技術路徑是否構成一場技術革命呢?從長期來講,這涉及到一個根本問題就是大腦還是身體,或者説大腦的這種認知能力具有決定性,還是我們身體所呈現出的感知、交互、行動能力,對產業與社會發展更具決定性、革命性的、持久性的影響與作用? 

我們現在已經很清晰的看到,當 AI 具備了人類的認知能力,也就是當機器有了大腦之后,這一定是一場技術革命。為什麼我們説這是一場技術革命,要從三個基本方面去看: 

第一,這個先進技術,是不是具有基礎性。傳統的技術革命,比如蒸汽和電,它們都成為一種基礎設施,幾乎無處不在,所以基礎性是成立的。 

第二個就是它對生產效率的提升作用。作為一場先進技術的革命,它是成倍的甚至呈指數級提升生產力。當前,在 AIGC 的加持下,我們有很多工作,尤其是腦力工作,比如說合同審校,繪畫製作,文本生成等工作的效率都是成百倍、千倍的上升。有了AIGC之后,各種論文的生產量極大提升,以至於大家都被淹沒在論文的海洋中。這確實是論文生產力的極大提升。如果沒有AIGC,我們很多學生都會苦於怎麼把文字寫好,但今天他們已經沒有這種苦惱,所以這是生產力的證明, AIGC 的確是一種生產力。 

第三就是它對整個社會上層建築的影響。當 AI 學會了思考,具備了人類大腦的能力,它對整個社會的影響的廣度和深度是前所未有的。但凡智力所及的人類的所有生產和生活活動都會被生成式人工智能所染指。比如,聽報告,開會,都會用腦子,就可以研發AI產品進行會議速記。所以有腦子的AI,其應用會滲透到社會的每一根毛細血管,是無處不在的。其大量應用也可能導致人類思維的懶惰,因此其它對整個社會的影響也是十分之深遠的。已經有大量的話題在討論 AIGC 大量使用之后,人的腦子如果不用是不是會廢掉等等的話題,這些本質上都是有腦子AI的影響的體現。 

所以,根據上述三個標準,AIGC 或者生成式大模型一定是一場新的技術革命。但是反觀具身智能,如果其目的僅是要讓機器具備人類的身體或動物身體的感知和行動能力。這種因為具有身體能力對生產力的提升的作用可能還抵不上一次物種的大規模繁衍,或者説一個人口生育的激勵政策。 

假設現在全球人口是80億,將來有80億的機器人在為我們工作,這80億機器人的生產能力,從某種程度上完全可以通過人口翻一倍來達到。考慮到機器的研發、維修,一臺人形機器所創造的生產能力可以等價於一到兩個人類個體的生產能力,等價於我們人口增長一到兩倍。所以從這個意義上來講,機器有了身體之后,對生產力的提升有一定的促進作用,但是這個促進作用是一個常量性的,這與讓機器具備人類水平的思維能力相比較而言,對生產力的解放作用是不同能級的。尤其是具身智能的人形機器人,它的商業場景仍有待挖掘,到底哪些場景是一定需用到人形機器人?大家會覺得我們不是有很多要用人的身體才能完成的工作嗎?比如,老人的陪伴。但是一旦人形機器人真的成熟到足以進入到家庭進入到生活,它的發展還會受到另外一個我們不可忽視的因素的影響,就是安全和倫理這兩個因素。 

從安全考量看,如果一個機器人在給你服務的話,它是會跌倒的,它是會誤傷人類的。出於安全考量,你也會限制它的應用。從倫理上的考量看,要考慮的更多。比如,我們將來的技術可以很成熟,機器人可以很廉價,但是對於老人的陪伴,再精心照顧的機器人,也抵不上來自於子女的問候和陪伴。 

從這個意義上來講,安全和倫理一定程度上會限制人形機器人的應用場景與規模。

因此,讓機器具有身體與讓機器具有大腦,從對社會與生活的影響力來看,前者要有限的多。今天我們所看到的具身智能發展,很大程度上是因為AI 在模擬人類大腦方面取得了巨大進展與突破,很自然的延伸到了讓 AI具備人類身體能力。所以我更傾向於認為當前具身智能的發展仍是認知智能取得了突破之后的技術延伸;即便人類身體水平的具身智能取得突破,其對產業與社會的影響也不具有機器實現人類水平的認知能力更具根本性與革命性。對於人而言,沒有大腦的身體,充其量是行屍走肉。對機器而言同樣如此,唯有認知能力的加持,具身能力才具革命意義,才具產業價值,才能形成真正的新質生產力。 

AI&Society百人百問:

謝謝肖教授,剛纔您給了AI的革命性的特質一個比較完整的概括。就是它是否具有像水電煤這種基礎性,對我們的生產力指數級的提升,以及對社會經濟生產生活的這種顛覆性作用。這應該是您判斷AI具有革命性的一個核心特質。您説到這些讓我想到數字化,或者互聯網,它是具備這三種特性的。那麼下一個問題,就是我們從數字化到智能化,或者我們數字化的鋪墊做完了以后,我們迎來了生成式人工智能。那麼它的進化路徑里,哪些是具有這種底層規律的,這種底層規律是否可以幫助機器人走向通用,大家都認為具身智能具備成為一種通用人工智能的可能性,它的這種規律和線索,您能再幫我們去抽象提煉一下嗎?

肖仰華:

我們現在反思生成式人工智能近兩年的發展,可以發現它的確是存在着一定的模式或者説規律的。其中最典型的模式就是大家津津樂道的 scaling law,也就是海量數據和大規模算力對於激發 AI 的能力起到了決定性作用。大模型廠商總體上仍然奉行scaling law,技術路線趨同。各大廠商爲了進一步提升自己的大模型或者具身智能的能力,核心工作就是整理收集更多的高質量數據,採買或者租用更強大的算力,用更強大的算力和更多的數據來激發大模型的潛力。基於Scaling law的發展模式成就了生成式人工智能一系列進展。一定程度上Scaling law也延續到了具身智能,以及其它形態智能的發展。我們看到具身智能的從業者們都在想盡辦法收集、採集、合成、生成更大規模、更高質量的具身數據,本質上都是因為從業者們篤信scaling law對於發展具身智能仍然有效。 

但是,在當下再回顧、再反思生成式人工智能的發展路徑,我們必須重視Deepseek等強思維大模型崛起背后所代表的大模型發展新模式。DeepSeek特別是其R1版本的成功發佈,宣告了大模型后訓練範式的崛起,宣告了大模型的發展不是隻有海量數據和算力這一條路徑可走。 

實際上,Deepseek R1 (此前還有OpenAI O1) 的成功代表了后訓練範式的成功。在后訓練階段我們主要是使用強化學習算法,讓 AI 自己自發的進行方案枚舉與評價,訓練大模型自發發現解決問題的有效路徑,激發 AI 的理性思維能力。對於基於強化學習的后訓練範式數據規模與算力規模不再是決定性因素。而數據的質量和訓練的策略,就是試錯的探索嘗試策略,成為最關鍵的兩個因素。我們已經見證數百條精挑細選的複雜思維指令,就能顯著提升后訓練的水平。精心設計的候選方案枚舉策略、獎勵函數與獎勵策略,往往成為基於強化學習的后訓練成功與否的關鍵。 

類比於人類的認知發展過程,如果説預訓練是在發展大模型的知性能力,那麼后訓練則是在發展大模型的理性能力。知性能力追求知識的淵博與完整知識體系的建構;理性能力則側重知識應用的智慧與思考的深度。知性能力的發展求全求廣;理性能力的發展則求精求深。所以伴隨着大模型訓練的重心從預訓練轉向后訓練,數據規模讓位於數據質量,參數規模讓位於算法設計。

依賴強大算力與海量數據的預訓練,依賴精細算法與數據質量的后訓練,對於發展具身智能來講是同樣適用。具身智能也在經歷基於預訓練的基礎模型與場景與任務適配的后訓練兩個基本階段。Scaling law對於具身基礎模型的發展至關重要,而后訓練階段則走向高質量數據集建設與算法的精心設計的發展模式。這兩種範式同樣重要,適用於大模型發展的不同階段,值得我們重視。 

AI&Society百人百問:

謝謝肖教授,剛纔您提到了scaling law 、強化學習以及數據規模等,都是能很好去推動具身智能發展的。下一個問題,就是您剛纔提到的具身智能,它的一些算法就是在具身智能里面,它是不是也有一些模型,這些模型進化和剛纔您説的 scaling Law的數據工程,它是不是有一些關係?同時還有一個延伸的問題就是優化模型的架構,比如説現在 transformer 基礎上,我用 diffusion 這種訓練的方式,我可以更好的去實現一些泛化能力或者生成高質量的成果,那麼它這種模型架構的優化是不是可以在一定程度上解決數據工程的這種難題?

肖仰華:

這是一個深刻的技術問題。其實業界一直有一個基本的觀點:模型算法或架構決定模型效果的下限,而數據決定這個模型效果的上限。比如,大家都使用 transformer模型架構,那麼在數據同等條件下,模型效果差異往往是微末的。即便在模型方面做出創新,效果提升往往在5個百分點以內。但是在數據方面的改進卻往往能帶來立竿見影的效果。在相同的資源投入下,數據方面的努力有效果往往優於在模型架構或者在算法上努力。所以,假如我們要想在短期之內看到模型的本質的提升,可能要花更多的資源精力在數據上。但是,假如數據已經趨同,就是大家的數據已經是花了大力氣也並不能比你的數據質量好多少,這個時候我們的焦點就會轉移到模型上,包括它的架構和算法。是關注數據還是模型層面的優化,在不同的發展時期,側重點是不一樣的。

説到模型和數據之間的關係,我們可能從廠商研發的成本和投入來講,百分之七八十的大模型研發人力成本可能還是花在數據上,剩下的人力成本是消耗在算力運維與算法設計方面。發展大模型、讓具身智能具備持續進化的能力,也仍然要從數據的源頭去找思路。現在業界關注的焦點是后訓練,通常藉助強化學習,更加重視高質量數據的篩選,來激發提升大模型的理性思維能力。所以大部分研發工作都是花在了數據上。 

讓大模型走向千行百業的關鍵在於整理好各行業數據:行業大模型落地的關鍵就在於把行業數據治理好、匯聚好,並轉換成高質量的訓練語料。大模型走向千行百業的主要瓶頸還是在數據上,我們仍需消耗大量的資源與精力從事行業數據和語料的建設。數據日益成為人工智能產業發展根本瓶頸,日益成為共識。今年2月份以來,我國各級政府也在從上往下地推動加快人工智能高質量數據集的建設與供給。很多大型企業作為大甲方都關心如何擁抱大模型機遇,事實上作為甲方可以不去投入精力去研究模型,但是你一定要投入精力去準備好模型訓練的數據,只有把自己行業、企業數據整理好和清洗好,纔可能煉製好自己的大模型,所以數據是非常關鍵的。

而數據到了今天,也面臨着數據牆的問題,就是互聯網上公開的高質量數據基本上已經到了一個撞牆的階段,基本上該用的都用完了,數據問題也因此而日益突出,這也是為什麼越來越多機構、學者呼籲加大數據集的建設與供給的原因。 

回到數據本身,我們需要處理好數據和模型設計之間的關係。事實上,數據方面的短板一定程度上可以通過模型的優化來進行緩解,尤其是在模型訓練的策略和方法上、算法上。數據優化一定程度上等價於模型參數分佈的優化,等價於數據採樣策略的優化。所以可以通過數據採樣策略、模型參數優化等方式來緩解數據缺失或者分佈失衡、暴露偏差等問題。 

還可以通經驗知識植入來緩解數據問題。通俗地講,就是數據不夠知識來湊。數據的結晶是知識。比如,一大堆數據所藴含的規律、模式、函數關係,通常可以沉澱轉化為行業知識、學科知識等。所以當數據不夠的時候,我們可以通過先驗知識來彌補。通過經驗知識的有效牽引,一定程度上可以彌補人工智能訓練數據不足所到來的問題。但知識注入不是從根本上解決問題,踏踏實實的培育好數據集,纔是構建AI時代護城河的根本路徑。 

再回到具身智能,可以説數據問題尤為突出。反思今天的具身智能的發展路徑,數據問題令人擔憂。從現狀來看具身模型的訓練數據量可能還遠不足以支撐它的泛化能力的涌現。大規模語言模型被認為具有一定的泛化能力,很大程度上是由足量數據的大規模訓練實現的。當前具身智能泛化能力較弱,很大程度上就因為它的訓練數據量還遠沒到能夠激發模型泛化水平的臨界點。生成式語言模型也是在GPT時刻,訓練量達到一個基本門檻,才能成就所謂的智能涌現。具身智能智能涌現的臨界點可能還遠未達到。 

我們看一下當前具身模型訓練的數據量。當前具身模型多采用基於 VLA (Visual-Language-Action) 的多模態聯合訓練模型,基本思路是將視覺、語言、動作三個模態對齊之后轉換成token。當前最大的具身數據集所能支持的token量差不多在百億級別。相較於語言模型,動輒數萬億token量,從百億到萬億,訓練數據量相差兩個數量級。我們再來看模型參數規模,具身大模型參數目前在數十億規模,而最大的語言模型已經達到萬億參數規模,參數量上也相差兩到三個數量級。從這個角度來看,具身智能的當前發展階段還處在語言大模型的初期BERT時代,還沒迎來它的ChatGPT時刻,所以具身智能的發展對數據是極為飢渴和迫切的。 

那麼有沒有思路去緩解這些具身模型訓練的數據飢渴問題呢?目前工業界和學界普遍採用真機數據+仿真數據+合成數據的多元數據獲取思路。比如,用十多萬個機器真機採集各類任務的動作數據,用人類動作視頻數據來合成機器動作數據,還可以在仿真環境下去模擬的複雜環境下的動作數據。真機採集數據受限於高昂的成本,總體上數據規模有限。合成與仿真數據都不是具身原生的方法,其數據質量 (真實度、精細度) 離真機採集數據尚有距離。當前的具身智能數據發展策略總體上仍在代價、規模、質量方面存在諸多侷限,迟滯了具身智能 GPT 時刻的到來。

如果我們對比生成式人工智能的數據基礎,會發現像ChatGPT 這類大語言模型,其發展本質上得益於互聯網蓬勃發展所到來的豐富數據積累。互聯網先后經歷門户網站、社交平臺不同階段的發展,積累了海量文本、圖像等數據,為語言模型迎來ChatGPT 時刻奠定了數據基礎。互聯網的發展無意中成就了生成式大模型的發展。技術的演進往往存在着無心插柳柳成蔭的現象。另外一個典型的例子是驗證碼的大規模應用成就了高水平的圖像識別技術。爲了人機區分而設計的驗證碼無意中收集了海量的圖像標註數據,成就了Google在文字圖像識別的先進水平。 

今天具身智能的發展,某種意義上還缺乏類似發展AIGC的天然數據來源。具身模型的發展有可能依賴於具有動作採集能力的大規模穿戴設備的普及與應用。如果我們今天大量使用各類穿戴設備,具備場景識別、環境理解以及動作捕捉能力,是有可能形成大規模真實動作軌跡數據的,進而從根本上解決具身智能發展的數據瓶頸問題。當然,當前的穿戴設備仍然難堪動作捕捉之用。 

AI&Society百人百問:

您剛纔講了很多比較重要的問題,現在的具身智能的技術路線並沒有收斂,包括您剛纔講到它需要機器人和複雜世界去交互,才能更好提升它的智能。其實一個比較典型的應用就是自動駕駛,比如特斯拉用的FSD 路線。從學術上來講,李飛飛教授提出的世界模型,也是從2d 圖像,向3d 視頻或者三維圖像數據去發展額。另外您剛纔提到一個問題,我覺得非常有意思,您説需要高質量的數據來生成來提升智能的理性思維能力。我想請教您,您覺得現在具身智能在執行這些任時,都在發揮它的理性思維嗎?包括您剛纔講到經驗知識,它是非數據的,是人類的知識,人類的倫理。包括這些多模態的感知能力,我增加的也是機器的理性思維嗎?比如,我是一個小孩,我的五感都非常靈敏,但很難説小孩就具有一種理性思維。

肖仰華:

這個假設非常好。其實這波人工智能發展是在倒逼我們去思考人的智能,或者説我們更多的是在借用人類智能的認知框架在分析人工智能。其實康德曾經把人的能力分成了知性、感性和理性三種。 

知性通常使用「學富五車」這樣的詞匯進行形容,比如你知道復旦大學名字的出處是什麼,這都是知性能力的體現。但有知性不代表有理性。理性集中地體現在強思維、強邏輯能力。有知識不代表知道知識如何使用。比如,復旦大學以此命名意味着什麼。我們知道知識如何應用,知道何時何地何種情況使用用何種知識解決何種問題,這些智慧都是理性能力的一種體現。 

設想一下古代的蘇格拉底、柏拉圖跟我們今天的小學生比,他們具備的知識量肯定不如我們今天的小學生,但是現代人即便是成年人又有多少人敢與這些人類導師比肩理性思維能力呢?要知道二千多年的人類文明的發展都被視作是對這些軸心時代的開啟者的思想的解讀與腳註而已。所以有知性未必有理性。人類理性與知性之分,對我們研判大模型的能力具有啓發意義。GPT4之前的絕大部分大模型主要是在訓練知性能力,習得了越來越多的知識。我們總覺得國產大模型跟國際上最先進大模型比,智商會低一點,低在哪里?其實主要就是低在理性能力,也就是知識的使用能力方面。隨着大模型訓練數據的趨同,知識貯備或者説知性能力方面不同大模型相差不大。但在理性發展水平方面卻大相徑庭,特別是深度思考大模型OpenAI o1和DeepSeek R1誕生之后。 

理性能力最為集中的體現就是反思能力,直到 OpenAI o1 和 DeepSeek R1 ,這兩個大模型開啟了大模型反思能力。我們稍微追溯一下o1 也就是去年10月份的事。DeepSeek R1是今年2月份的事,大模型學會人類的理性思考能力,也就是最近的事。包括傳説中的GPT5都是希望讓大模型具備更強大的理性思維能力。那為什麼一定要具備理性思維能力?因為大部分的 toB 應用需要要讓機器有人類水平的理性思維能力。toB應用本質是讓大部分機器具備行業專家的能力。人類專家有專業知識、有強大專業思維能力,能夠利用所學知識去解決行業問題,理性能力決定了他解決問題的水平。 

人的能力除了剛纔講到的知性和理性,另外一個是感性能力。我們經常會覺得跟身邊某些人説話聊天,有如沐春風的感覺;或者就像泰戈爾説過,「每個人都應該活成一束陽光去照亮你身邊的人」。這些就是感性能力的體現。 

感性能力對人類的生存與體驗至關重要的,它形成了我們的氣場,塑造着我們的魅力,有如香氛一半薰陶着我們的人際關係。人工智能其實一個重要的發展方向就是在模仿人類的這種感性能力。我們看到OpenAI 的GPT-4o 就是定位在感性能力發展,它能夠根據你的語言語氣語調,理解你當下説話時情感,並進而產生豐富的共情表達。比如,你很開心的說了一句話,它也會使用歡聲笑語的風格同你聊天,這就是感性能力的呈現。試想一下,如果GPT-4o這種共情能力跟具身結合,感性的語調再配合上手舞足蹈與歡快的表情,所產生的感性效應則會遠遠超出蒼白的文字。身體的感性能力,決定了機器能否走進千家萬戶。機器要想成為人類的生活夥伴必須通過感性能力的考驗。所以在 ToC 應用的核心是感性能力,沒有人願意向一堆沒有温度的鐵別訴説煩惱。 

所以大家現在去看 OpenAI 的佈局就很清晰了,他在機器的知性 (GPT4之前的系列模型) 、感性 (GPT-4o) 、理性 (O1) 三方面都有佈局。不得不説,OpenAI的產品規劃們是深通人性的。 

AI&Society百人百問:

謝謝肖教授,您剛纔説的我深有體會,讓我聯想到我在用大模型時,會聊一些女生的話題,我發現大模型的共情能力比真人甚至家人還強,同時它很有理性,懂得控制這種情緒,它的表達也很有邊界感,不會造成人機關係上的摩擦。正像您説的,未來的AI可能會向感性、理性、知性融合的這一趨勢發展。再回到機器人,您提到它的價值在於和我們真實世界的人互動。回顧過去2年左右機器人所展示的,比如,從事做飯、疊衣服、衝咖啡等家政服務,我覺得這些都屬於家政的基礎技能。那麼從特定任務出發,到真正實現機器人完成複雜任務。在實現這一目標的過程中,機器人有哪些關鍵的泛化能力需要突破,也請肖教授談談您的想法。

肖仰華:

泛化水平是評價AI的最重要維度。我從數據角度談談泛化的難點。 

從業者的一個真切體會就是具身智能的泛化十分困難。爲了理解這種困難,不妨先考察一下AIGC的泛化性,生成式大模型的泛化性看上去不錯。比如聊天,不管何種形式的語言表達,大模型的理解基本不會再有偏差。本質上大模型的這種泛化能力來源於海量數據的訓練,數據達到一定規模,觸發了泛化水平達到臨界點。如果沒有近萬億 token 的訓練,語言大模型可能也無法達到人類水平的泛化。數據量變,纔有可能換來智能泛化的質變。 

回到具身智能,其數據要產生並匯聚到足以引發泛化質變的地步仍然十分艱難。為什麼積累不到大規模的具身數據?因為身體在環境中的體驗、交互看似簡單,但對於計算機實現而言實則複雜。 

首先,個體體驗表達困難。比如,我現在坐在這個椅子上,如此簡單的環境交互。但如果要對其進行精準建模則是異常複雜。爲了描述「我很愜意的坐在椅子上」這個體驗,需要我描述我當下的外在身體狀態與內在心理狀態,它們共同構成了我的當下體驗。人類的體驗,如果要付諸完整、精準表達,將會形成高維數據。比如,僅是爲了描述我當前的坐姿,就需要對「臀部 [位置],雙腿[分開程度],膝蓋彎曲約[角度]度,雙腳[着地方式],軀干[挺直/前傾/后靠]程度,腰部[是否有支撐],肩膀[高低/前后位置],雙臂[具體姿態],手部[位置和動作]。頭部[朝向和角度],整體重心[分佈情況]……」 (來自於大模型的回答,經筆者確認) 。這還不包括此刻我眼睛所見、耳朵所聞、皮膚所感、心里所想。單單是個體體驗數據完整、清晰表達就非常困難。 

第二、環境表達困難。人是與環境交互的,而環境又是非常複雜,難以精準刻畫。當下,世界模型研發吸引了業界的高度關注。世界模型的本質就是讓 AI 能夠建模這個複雜世界。我們人所身處的環境世界是多樣、易變的。比如,我的辦公室與其他人的辦公室環境不一樣,就連一個檯燈都有可能千差萬別。環境還處於快速變化之中。因此,對環境建模是特別困難的。 

雪上加霜的是,即便相同的環境,不同的個體、不同的場景、不同的任務、不同的時空,其交互的呈現仍有差異。環境複雜性、個體體驗複雜性,再疊加了由個體與環境交互所產生的複雜性,就造成了具身智能發展的數據複雜性。因此,提升具身智能的數據規模與質量有着重大技術挑戰的。 

某種程度上,我們今天能夠採集、收集的具身數據,其規模即便與語言模型涌現相比也還差兩到三個數量級。即便達到萬億token規模,具身任務的複雜性決定了其離觸發具身智能「涌現」所需的數據規模與質量仍然相去甚遠。 

具身智能絕不比語言智能簡單。在文字、符號空間的計算與推理遠難於説不清、道不明的複雜世界交互。越是接近人類認知的抽象空間,對於計算機實現而言越是簡單;越是接近人類感知行動的具體經驗,對於計算機實現而言越是複雜。某種意義上,對於計算機實現而言,端茶倒水的複雜性遠甚於吟詩作畫。維特根斯坦説過"凡是能夠言説的,都能夠説清楚;而對於不可言説的,人們必須保持沉默。"具身體驗多多少少就是難以言説的任務。某種意義上,實現具身智能就是在挑戰維氏所認為的「必須保持沉默」無法完成的任務。對此,我們這些AI實現者們應該保持敬畏之心。 

真正的英雄最為難能可貴的品質不就在於認清困難真相之后,仍然迎難而上麼。我們有沒有辦法促進它儘快接近這種臨界點。我覺得可能會有幾個思路: 

第一,我們不能像語言模型那樣去尋求暴力的數據堆積與匯聚方式。我們必須承認具身數據採集的困難(樣本稀疏、不完備、成本高),轉而尋求加大反饋和試錯的訓練量。簡言之,數據量上不去,但可以堆訓練量。比如,我們將來可能有大量的實體機器人或者虛擬機器人,讓這些機器人在現實世界或虛擬世界中進行交互、探索、試錯、反饋,通過大量的訓練促進它的泛化。具身學習的本質就是「嘗試」。再科學、完美的游泳教材,再多的游泳演示,如果你自己不付諸親身嘗試,也學不會游泳。即便我們能夠使用最為先進的傳感設備把泳池環境與水波流體力學進行完美建模,如果你不親身下水感受,你也無法在水池中漂浮。身體的能力,從來都是的具體任務的嘗試與實踐中形成的。 

第二,是借鑑並學習人類的泛化遷移機制。人的泛化能力體現在舉一反三。人類之所以能夠做到這一點,有兩個非常重要的認知機制。一是人有類比能力,比如,當我們看到一個類似錘子的工具,會很自然聯想到過往錘子的使用經驗,並將其驗遷移到這個新工具,從而掌握這個新工具的使用,這背后是人類對已掌握知識與技能的合理泛化和適度遷移。人類日常生活的舉例、建模、隱喻本質上都是類比能力的體現。類比是能彌補數據稀缺而泛化不足的一種有效機制。另一個是人的歸納和演繹能力。人一旦具有豐富經驗之后,是能夠在經驗基礎之上進行歸納的,會把經驗歸納成模式,再把這些模式推而廣之,也就是演繹到新的場景。這種歸納總結再去演繹的方式,它也是一種實現泛化的思路。我們可能需要借鑑人類智能泛化的機制去考慮如何實現具身智能的泛化。 

AI&Society百人百問:

謝謝肖教授。您剛纔説到的智能泛化的源頭,這是不是一種技術範式的一種反思。我在學習人工智能的過程中,瞭解到有三種範式,就是符號主義、連接主義和行為主義。就像您説的機器人要和複雜環境交互,其實更像是一種行為主義的方式,再衍生出強化學習,就是我的行動和目標之間的這個距離在不斷的校正。剛纔您提到的關於心理活動的表達,比如,一個人會察言觀色是不是就是一種對圖像或者泛圖像的識別。能不能請您從範式的角度,幫我們再去提煉一下,實現AI的這種泛化能力,將有一個怎樣的新的解題思路,或者説解題思路上有哪些繼承和發展?

肖仰華:

從人工智能發展的思想源頭來講,雖然AI技術已經十分先進,但是其發展路徑仍舊也沒有跳脱上個世紀五六十年代科學家給我們繪製好的三條基本路線。也就是你所提到的符號主義、連接主義和行為主義。 

符號主義的核心思想是讓機器具備人類的知識,進而形成智能。人類發明了語言和文字,並將豐富的世界經驗沉澱爲了符號知識。這些符號知識在代際間傳承推動了文明的持續進步與發展。比如,我們教科書中的內容,就是各種知識的表達,來源於人類經驗總結與提煉。符號主義認為符號知識以及基於符號的推理共同構成了智能的核心。第二路線是連接主義,本質上是模擬人類大腦的神經實現機制。大腦中的神經網絡經過足夠訓練就能習得一定的解決問題的模式。比如小學生背誦九九乘法口訣表,不會去想為什麼三乘三等於九,而是通過多次訓練建立起三乘三這個輸入與九這個輸出之間的統計關聯。絕大多數死記硬背本質上就是訓練、強化自己神經網絡記住某個輸入和某個輸出之間的關聯。人類的視覺、聽覺等五官的感知能力大多數都是遵循類似連接主義的實現路徑。 

除了上述兩個範式之外,人工智能實現的第三種範式叫做行為主義。認為智能是在複雜的環境中通過交互反饋進化而形成的。比如,我們一開始練習打乒乓球,經過多次嘗試,多次失敗后的反饋,很快就能習得發球的準確姿勢。人類和動物絕大多數身體技能的習得,問題解決策略的習得,都是遵循行為主義範式。行為主義強調的是通過試錯與探索學得技能或者知識。有一本書叫《為什麼偉大不能被計劃》,它指出偉大的成就是靠試錯試出來的,而不是靠經驗知識規劃出來的。行為主義最為中的實現方法之一就是強化學習算法,深度思考大模型的后訓練,機器抓取動作學習都依賴這一方法,本質上都是走行為主義的技術路線。 

如果對比上述三個流派,我們會發現連接主義和符號主義本質上都是從歷史經驗進行學習。二者不同之處在於連接主義多從原始數據,或者説第一手資料開始學習,而符號主義則是從人類加工整理而成的符號知識進行學習。連接主義與符號主義的機器智能發展路徑本質上類似於人類的學校教育。我們從書籍、教師學習先賢所積累的經驗與知識。相比較而言,行為主義則更像人類的實踐教育。書中學來終覺淺。我們還是要將所學知識付諸實踐才能學有所成,成為行家里手。行為主義強調從實踐中積累經驗,從實踐中習得技能。 

事實上,這三條技術路線仍在今天人工智能的發展過程發揮重要作用。當數據量很充分時,我們往往藉助transformer之類的深度神經網絡模型習得數據中的統計模式,這本質上是連接主義。當數據量不夠但能夠梳理出明確的行業知識時,我們往往使用符號知識比如知識圖譜進行大模型幻覺控制與消減,這本質上是符號主義。當基礎模型已經就緒,但需要最后一公里適配場景和任務時,我們往往尋求反饋信號依靠強化學習來完成最后的優化,這本質上行為主義範式。所以,基本上這三個範式仍然是今天我們構建一個完整的人工智能解決方案的最為典型思路。 

AI&Society百人百問:

好的肖教授。這些非常抽象的概念,被您理論聯繫實際的解釋的非常清楚,讓我們這種普通人也能聽懂。下一個問題我們想請教您,機器人它確實存在泛化難題,但是大家都很期待,不管是人形機器人,或者其他形態的機器人,它能解決通用問題,更實現不同任務目標。那麼實現這種泛化應用到實踐場景后,它的意義是什麼?從產業角度看,希望機器人做產品,因為它足夠集約,能夠規模化,這是我們第二次工業革命以來,一直採用的一種解題思路。那麼從您的角度看,這是不是清晰且可行的,能不能解決或緩解機器人成本價格高昂和效益無法預見的這個局面?

肖仰華:

就產業而言,這是個非常好的問題,也是我特別想談談我對這個問題的觀點。所謂集約化就是希望機器人能具備更多功能,最好是通用的,什麼都能干。因為只有一個什麼都能干的機器人,才能無限降低它的成本,這是我們的理想。爲了回答機器人是否應該集約化。我可能首先回答一個問題:做通用機器人,還是專用機器人?

爲了討論清楚這個問題,我們先討論生成式大模型的發展路徑。在大模型領域,業界一直在爭論通用大模型還是行業或者專用大模型。有人認為通用大模型將要一統天下,專用大模型沒有機會。又有人説專用大模型才能夠在場景真正發揮價值,通用大模型價值有限。 

生成式大模型本質是要實現人類大腦的認知能力。認知是分通用認知和專業認知的。人類的認知能力發展是要先經歷通用認知發展再到專業認知發展這一過程的。因此,人類的教育一定是先有 k12的基礎教育,完成通識教育、通識認知能力的培養,然后再經歷大學教育、職業教育來完成專業、行業認知訓練。人類教育體系設計的一個潛臺詞就是通用認知是專業認知的前提。所以大模型的發展一定是先發展通用認知,然后纔有可能發展成專業認知。

要知道在ChatGPT 出現之前,大多數行業專家認為實現認知智能的路徑恰好是相反的。大多數行業專家都不認為能夠發展出機器的通用認知能力,大都認為機器必須先發展數據量要求相對較小的各領域與行業認知,然后再匯聚到一起形成通用認知能力。但是ChatGPT的誕生刷新了我們的認知,顛覆我們的原先看法:原來人工智能發展路徑和人是很像的,也必須先發展通識能力,才能發展專業能力。 

所以,我們看到今天發展具身智能,大家又在照搬AIGC這一路徑。然而,當我們把人的大腦的能力遷移到身體能力時,背后的邏輯根本不同。人類的身體能力的發展是沒有所謂的通用身體能力和專業身體能力之分的。人從孃胎誕生出來,只要是四肢健全,就已經具備了所謂的身體「通用能力」,具備日后四肢從事複雜技藝的可能性。機器人的四肢關節等這些機械結構,對於人而言是先天形成的。人誕生之初就具備了抬腿走路、揮舞手臂以及完成複雜操作的潛力。人類身體的一些專業技能都是在專業場景中訓練的。在學校的體育教育中,學生們學習的都是某項具體技能,比如籃球、游泳,人類的身體能力和技能是在各種具體運動中培養發展起來的。人類身體能力的習得是沒有通用和專業之分的。 

我們要反思當下具身智能的邏輯,需不需要把更多能力或技能植入到一個機器人的身體里。對於人類而言,我們不會要求一個跳水冠軍同時也是乒乓球冠軍。一個人跳水好就行了,不會要求她乒乓球也打得好。對機器人也是類似的邏輯,我們為什麼要求一個掃地機器人非得十項全能?它能把地給掃好就可以了,為什麼還要去疊被子,或者照顧老人。把一項工作做好,這就是專用機器人。更現實的期望是具身智能機器人能夠勝任場景化和專業化需求。 

機器人的身體決定着也限制着它的功能,有什麼樣的身體纔有什麼樣的能力。比如,掃地機器人,它只有下面的刷子,所以它只能干掃地的事。機器人有了四肢,才能去做一些抓、推、拉、握等各種動作。身體構造一定程度上決定了機器人所能完成的任務類別,不存在絕對通用的機器人,通用機器人是一個偽命題,機器的功能受限於它身體的物理構造。我們永遠不該指望兩條腿的機器人能跑得過四個輪子的汽車。所以具身智能機器人,更多地是場景化、任務化發展的基本方式。 

那麼具身機器的產業發展邏輯是什麼?或許任務與身體構造相適配是一個合理的前提,在此前提下儘可能拓展其適用場景和任務類型以持續提升其價值。比如,掃地機器人多裝幾個其他刷子,不僅能掃地,可能還能夠刷牆,如果再加一個剪子,他説不定還能分解垃圾。再比如,生產線上的機械臂已成為車間利器,進一步利用大模型加持這個機械臂讓它去生化實驗室做實驗,實現無人實驗室。同樣的身體構造,在大模型加持下,就能夠做更多的事,來釋放它的價值,這是合理的期望。但我們不應該想着讓這麼一個機械臂,從事超出機械臂所能從事的其他任務。所以集約化要適度,要考慮機器的機器身體構造是否否切實可行。 

AI&Society百人百問:

謝謝肖教授。您讓我想到了現在我們即使是看到一些通用或者仿人形機器人,如果把它的能力相對解耦的話,可以看到它,要麼是利用上肢去做一些夾爪,完成一些分揀任務,完全是依靠硬件加大模型來完成的。另外就是類似自動駕駛那樣的導航和移動能力的強化,所以它更多像一個輪子的功能。這些有點像機器人能力的一種遷移,這就像您説的,走場景路線,或者叫做任務集的路線。我們繼續往下,剛纔我們從模型包括它的能力延展到器人未來的一個形態,包括它的產業邏輯。那麼它的發展也一定會影響到社會經濟和民生。那麼我們在面對這種變革性技術,我們想請教您:現在對機器人去進行對齊這件事,是否是一個合適的時機?以及我們應該朝着哪個思路去走?比如,今年的國內的人形機器人展示了跑步、拳擊這樣的能力。有一些能力讓人感覺產生了威脅。同時,我們又發現機器人會導致數據泄露,並利用這點喚醒了其它機器人。我們會有相關團體去專門審覈這些機器人應用,那麼這些行動的背后,是不是預示我們要去對機器人做一些對齊的實踐和研究?

肖仰華:

是安全對齊還是加速發展,關係到人工智能的可持續發展問題。這一熱議的話題同樣延續到了具身智能發展。 

首先,我們必須承認機器因為有了身體,的確帶來了一些新的危險。這個危險主要體現在機器有了身體之后,會造成一些直接的物理傷害。比如,陪伴老人的機器人,萬一機器人跌倒,會砸到人,會造成人身傷害。這是我們需要密切關注的一個問題。 

但是我更想強調的是,有身體的機器所造成的風險,遠不如有大腦加持下的機器所帶來的危險。事實上,機器不需要身體就可以帶來巨大風險。AI為什麼一定要有身體才帶來風險? AI完全可以通過欺騙人類,操控人類來造成風險。比如,一個錯誤決策,可能給人類帶來大規模且深遠的危害。如果AI將來誤導決策者做出錯誤決策,其造成的危害是可以遠甚於有身體的 AI 所造成的危害。最近的很多影視作品如碟中諜8,流浪地球2等,就是在隱喻有腦子的AI所帶來的風險。 

但有意思的是,大眾或者媒體往往關心的是那種「終結者」形象的有身體的AI危害人類的風險。有可能有身體的AI所造成的物理危害更加直觀,更容易為人們所覺察與認知。但更值得重視的是有智商的AI給人類帶來的隱形的但破壞更大的風險。 

AI&Society百人百問:

我非常同意您這觀點。比如,我之前和同事討論的現在有cursor這樣的AI編程,如果AI能拿到人類所有行為數據給自己編程,並不斷演繹,AI最終會不會誕生出操控人類的新能力呢?我們應該如何去治理或者規避這樣的風險?特別是AI發展的現階段,有哪些方面需要特別關注的呢?

肖仰華:

我們還是繼續剛纔的話題,就是身體和大腦的關係,行動和思想的關係。我一直認為人的身體是一種賦能,但同時也是一種禁錮。人的身體能力在某種程度上限制了我們的物理邊界。人不可能依靠兩條腿跑步到月球,這恰恰是人的身體對自身能力的限制。將來我們要反過來思考,爲了讓AI不至於給人類帶來重大危害,反而要給AI配置合適身體,通過身體機能的限制,反而能一定程度保障人類安全。

而另一方面,思想是沒有邊界的。一個有腦子的 AI 一旦有了思想,它就是自由的,是沒有邊界的。它所造成的危害也是沒有邊界的。所以與其去關注有身體的 AI 給我們帶來的風險,不如享受有身體的 AI 給我們帶來的安全。而我們要把有限的精力更多地關注有腦子的 AI 所帶來的風險。 

首先,我們要做好安全評測。單就這件事情就已經非常困難,現在已經有很多團隊,很多權威專家包括圖靈獎獲得者都在研究這個問題。大家比較集中地關心人類能否測得出來 AI 是否具有一定程度的欺騙性或者目的性。 

雖然我認為AI不容易發展出人類水平的自我意識,但這不代表AI不存在目的性。而即便有限的目的性也可能帶來整個AI系統失控。比如,我們很容易為金融AI系統設定盈利的基本目標,然后讓AI自主決策。那麼AI就可能通過自主學習發現消滅人類某個階層而能盈利。如果出現類似的情況,顯然會對人類產生巨大危害。所以,為AI設置目的、讓AI在設定目的驅動下自主學習,是一件容易導致AI系統失控併產生風險的操作。因此,AI系統的目的設置需要進行謹慎評測,任何自治AI系統都應謹慎評估其安全性。只有我們做好評測和監測,我們才能第一時間發現風險並及時干預 (比如拔插頭) 。所以有人預測,將來AI安全領域會誕生新的職業:監管師,他的職責就是一旦發現AI有不正常行為或失控風險,就要及時拔插頭。我們需要這樣的專業人員做好AI的安全評估。 

其次,要在加大AI對齊研究。AI之所以會存在剛纔説的這種失控風險,本質上還是我們在模型訓練,尤其在對齊階段,跟人類的價值觀的錯誤對齊,或者對齊不充分,也就是對齊本身就存在問題。AI所產生的很多問題很多是人類社會問題的延續。人類社會不同羣體之間的價值觀也往往彼此對立、難以調和,很多社會矛盾背后都是價值觀差異難以協調。人類價值觀的對立導致AI對齊困難,進而帶來AI失控風險。所以,AI對齊能力缺陷有可能讓人類社會的風險延續到AI身上。很多時候,我們與其緊盯技術去解決問題,不如盯着人類社會本身去解決問題。 

AI&Society百人百問:

您提供給我們一個非常獨特的觀點。我們對於AI治理也不應該頭疼醫頭,腳痛醫腳。技術的本源還是我們人類本身。這讓我想到了《三體》里面的「執劍者」,他就是那個要拔插頭的人。其實,對立的思維一直存在於人類社會。我們想讓機器更像人,也就難以避免它的負面問題。那麼最后一個問題,我們回到人類本身,一方面我們希望機器更智能,但是我們也在反思如何避免人更像機器。比如,現在我們把程序員稱為「碼農」、工作叫「搬磚」,這些都是以前對農民、建築工人的稱呼,而現在這種稱呼向具備知識的人身上遷移,大家都覺得自己像機器一樣,上下班打卡,每天重複機械式的工作。那麼在這個機器智能快速發展的時代,我們人類應該如何去避免這種機器化,來維護人類的獨特特徵和價值。而當我們找到自身的價值后,而我們的教育、文化以及社會保障體系應該如何去調整和適應未來人類在智能時代的心態的變化。

肖仰華:

這是一個非常宏大的話題。我表達幾個觀點: 

隨着機器的進步、工具的進步,人類往往更容易退步。工具越進步,工具的使用着在工具所實現的相應能力方面越容易退步。人類歷史的發展再三證明了這一現象。在未來的在智能時代,由於 AI具備人類的心智能力與人類身體能力,那如何避免人的身體以及心智的全面退化,這是一個非常核心的問題。2000多年來,技術和工具每一次進步,都帶來人類身體相應能力的退步。比如,汽車普及了,我們必須靠運動才能維持雙腿的能力;鍵盤普及了,現代人就很容易提筆忘字了。 

到了AI時代,人的退化問題變得日益突出。因為人類身體的退化不足以改變人之本性,人的四肢能力退化了,但可以用四肢來做手工作品或繪畫。雖然現代人沒有原始人跑得快,但我們可以騎車去旅遊,把四肢釋放出來去從事更多美好的事情。所以身體的退化可以通過其他來彌補,這不改變人的本性。 

但是如果人的心智水平也退化了,比如,未來AI包括機器人被大量使用,代替我們進行大量的腦力勞動,人類腦力的實踐機會都被機器剝奪了,我們的大腦就會退化。大腦退化了人還是人嗎?如果人類智力退化到猿猴,比如電影《人猿猩球》里的人類,那就不能再稱為人了。所以AI大規模使用之后,會導致人類能力退化這個問題值得我們嚴肅對待。人再怎麼退化,心智能力是不能退化的。心智能力的傷害是在改變人之為人的本質。 

我們將來如何在新的智能時代去保有防止人的退化,我覺得要做幾件事: 

第一,要建立起人工智能合理應用的基本準則。我們要高度重視 AI 治理問題,要建立起 AI 合理應用的基本原則。我們不僅要防範AI 自動武器之類的AI惡用,更要提防 AI 的大規模濫用。比如,小學生在解題過程中,不去思考就用AI解題,這就是一種AI誤用或濫用。AI濫用在教育中尤為值得重視,我們必須想清楚教育中的哪些場景可以安全使用,哪些場景限制使用。事實上,如果將AI用户賦能老師的工作,比如用 AI 輔助備課、閱卷、批改作業當然是好的,可以提升教師的工作效率、提升教學水平。但如果學生在學習環節不加選擇濫用AI則可能造成自身能力發展的障礙。其實AI 在很多行業的應用都具有兩面性,我們應該劃定好AI合理應用的邊界。未來的AI 會在絕大多數任務中超越大部分人的水平。未來,我們更多的考慮不是 AI「能不能用」,而是「該不該用」。出於對人類福祉的考慮,出於對人的發展的考慮,AI絕不應能用則用,而是即便能用也要多想想該不該用。 

其次,要大力發展教育學和心理學。換言之,就是要大力發展與人的發展相關的學科。 

外部工具越繁盛、越進步,人的心理問題往往就會越嚴重。AI 是工具,其本質上是人類智能的延伸,是外部的客體。當 AI 能力越來越強,超過其主體能力之后,人的心理就會出問題。脆弱的心理是無法應對和紛繁的AI時代給個體帶來的巨大沖擊力的。好比枝繁葉茂但根系不深的大樹很容易被大風颳倒。只有人類的心理足夠強大,才能掌控AI,才能應對因AI大規模使用給社會帶來的巨大的不確定性或快速變化。所謂內聖才能外王。人首先要建立其強大的內心世界以迎接AI時代的到來。 

其次要革新我們的教育。我們傳統的教育本質上是大規模工業化時代的產物。是為批量生產產業工人,白領工人而形成的教育。但是未來,傳統教育出的大部分產業工人,其技能和知識都會被 AI 取代。這兩天的高考,絕大多數大模型的考分都能達到985高校分數水平。傳統教育培養的人才,已經無法適應AI 時代的發展要求。我們要培養能在AI時代從容自立的全新人才。我們要尤為重視培養人的高階認知能力以及AI 難以具備的能力,比如鑑賞、評價、批判、質疑能力等。AI 雖然善於生成,但是它無法評判內容的美醜、好壞、是非、善惡。爲了這個目的,我們首先要破除教育內卷。我們今天的教育評價仍是出於競爭性選拔考慮。事實上我們的學生爲了所謂的高分所付出的諸多努力在AI的絕對高分面前失去意義。我們唯有破除教育內卷,才能給孩子留出更多時間去培養審美、批判等高階認知能力,才能呵護與培育兒童與對世界的好奇心、創造力與想象力。教育變革勢在必行。。 

更長遠來看,整個人類社會的上層建築,整個文明的發展根基都會受到 AI 的衝擊。我舉幾個例子: 

我們社會是以人與人之間的關係為基本單位的。但今天 AI 闖入到我們的生產、生活當中,它就有可能衝擊社會關係。比如,大量使用情感類AI,會讓人和人之間的交流會變得越來越少、越加淡漠。人們都願意跟AI去聊天,去談情説愛,而不願意和人類交往。人類社會架構體系就有崩塌風險。AI也進而衝擊經濟基礎。當AI極大提升了生產力,物質便不再匱乏,物質匱乏問題成為一個過時的術語。那麼這個時候經濟運行賴以成立的物質需求與物質交換前提就不再滿足。當前AI最大程度上滿足了人類的物質和精神需求之后,如何重新定義人的價值,或者人類還有什麼新的價值,就成爲了我們必須直面的問題。

第三,AI時代我們如何找到人的新價值呢?在人類的舊的價值體系行將崩塌,但是新的價值體系還未建立的時候,我們的首要任務是拓展人類的認知邊界。 

因為我們的認知邊界從根本上決定着新價值體系的確立。直到今天,人類還未走出太陽系。人類的足跡仍被困在有限的幾個星球。馬斯克説要去火星,要去探索星辰大海,其本質是在拓展人類的認知邊界。只有認知的邊界拓展了,人類纔有可能在新的認知疆域建立新的意義和價值體系。我們要從學科交叉處拓展我們的認知邊界,尋找新的意義和價值體系。現代文明對世界的認知是建立在各細分學科基礎之上的。人類對世界的整體性認知被各細分學科分解的支離破碎。重建綜合性視角對世界進行完整審視,將聚光燈打在學科交叉的縫隙處,我們才能尋找到新的意義和價值所在。同時,我們還要往人的內心深處去尋找新價值和新意義。人類對於內在世界的認知並不比外在世界更多。人心似海,人類汪洋的思維和心理世界仍有眾多幽暗角落尚未被理性之光投照。 

總體來説,重塑人類文明價值體系可能是任重而道遠的,我們可能纔剛剛開始。 

AI&Society百人百問:

謝謝肖教授,聽您這樣講完,又引發了我的一些思考了,就是您剛纔説的未來教育要去除產業工人的這種培養模式,轉而培養更多的藝術家,鑑賞家,甚至是思想家。那麼這會不會產生另一種后果,比如,您説的取消現在的教育體系和模式,一方面會不會對社會產生一些連鎖反應;另一方面會不會導致更多的不平等、不平權。比如,什麼樣的人是具備審美和鑑賞能力的?假如以寫一篇主題是審美的作文為例,農村背景的小孩就不一定理解這個詞,他不理解這個詞,又怎麼能完成作文呢?那麼這種教育革新會不會帶來更多不平權、不平等的問題呢?另外,回到我本身的工作,大部分白領或者辦公室人羣,不管這些人的比例怎麼分配,他們的基本任務都能分解成 SOP 流程性的任務和創意性的工作。那麼按照您説的,在教育改革后,只要分配關係沒變,在就業市場,人應該如何提升這種持續的生存能力,説的通俗一點就是我要就業,我要賺錢,這是我們每個打工人要去思考的問題。

肖仰華:

這幾個問題都特別好。 

首先剛纔説到的人的能力問題,比如寫作、編程、計算等技能,都是現代人的核心能力與素養。我們不能滿足於掌握這些核心技能,而是要在此基礎之外,發展高階認知能力。唯有通過破除教育內卷,才能為學生們培養AI時代的人類的獨特的高階能力留下時間。但是不能因為發展高階認知能力,而忽視了核心能力素養的培養。實際上核心認知能力是不可或缺的,是人發展高階認知能力的前提。如果你不具備寫作能力,你大概率也不會發展出對文字的鑑賞能力。如果你沒有繪畫基本功,你也很難建立起涉及紋理、構圖、色彩、曲線的審美評價體系。所以我們不能因為爲了發展高階能力而丟棄核心能力。這是我們在未來的教育變革當中需要高度重視的問題。 

從長遠來看,AI對就業影響從根本上來講取決於AI對產業的影響。事實上,AI對產業分工的前提提出了挑戰。未來在強大 AI面前,人的能力之間的差異幾乎可以忽略不計了,那麼這時候就也就談不上什麼產業分工了。人類的產業分工,歸根結底是因為人的能力差異,一些人擅長做這個工作,另一些人擅長做那個工作。而未來,人的能力差異在AI面前顯得微不足道,生產大多數是交給AI。產業分工的前提消失,產業也就不再存在。 

AI所帶來的物質供給極大豐富也進一步會消滅工作的必要性。AI時代,工作或許還會存在,但是未來工作的存在意義不是爲了滿足物質和精神需求,不是爲了個人生存。未來工作最大的意義就是體驗。工作將不再是謀生手段。你工作,僅僅是爲了享受某項工作給你帶來的獨特體驗,工作體驗會變成你的一種生存權利。這已經超出了經濟學的範疇。未來人類社會的所有問題都要從邏輯起點、問題源頭進行重新審視。 

AI&Society百人百問:

好的,我覺得這次採訪讓我的收穫非常大,可能會在很長一段時間內去引導我們的工作和生活,今天我們整體的對話環節就到這,感謝肖教授!

徐一平 騰訊研究院 高級研究員 

王強 騰訊研究院 資深專家 

本文來自微信公眾號 「騰訊研究院」(ID:cyberlawrc),作者:騰訊研究院,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。