熱門資訊> 正文
2025-09-27 14:32
炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
(來源:網易科技報道)
9月27日,2025網易未來大會在杭州舉行,主題為「以智能·見未來」。本次大會由網易公司主辦,杭州市經濟和信息化局(杭州市數字經濟局)、杭州市商務局、杭州高新(維權)技術產業開發區管委會指導。
本屆大會將作為「第四屆全球數字貿易博覽會」的組成部分之一,聚焦人工智能各領域的發展,探索未來趨勢。大會將由中國工程院院士潘雲鶴、蔣昌俊等四大院士領銜,匯聚具身智能領域泰斗、頂尖AI創業先鋒、知名投資人及產業翹楚。與會嘉賓將共同探討大模型、具身智能、AI Agent等前沿技術突破與商業落地,在思想碰撞中捕捉全新的時代機遇。
在大會中,加拿大工程院院士、南方科技大學電子與電氣工程系系主任孟慶虎先生發表了題目為《人工智能時代的手術機器人,還是機器人手術?》主題演講,他表示,手術機器人在國內外監管非常嚴格、需要拿三類醫療器械認證,發展速度相對緩慢。現在國際上最領先的就是達芬奇手術機器人,它雖商業成功,但20年來基本沒什麼變化,有很多家企業雖跟進模仿,但缺乏創新。
針對「未來仿人機器人會不會替代外科醫生?」的疑問,他介紹了兩種對立觀點:
美國手術機器人之父Russel Taylor認為「不會」,因為他的團隊從做Robot Dart開始,他的願景是連醫生都不用,何況還要用一個醫生仿人機器人,所以他是不會用的,其團隊已於2025年7月份實現全球第一例全自主機器人切除豬的膽囊實驗。
Sugano教授則認為「一定會」,MoonShot 2050計劃中,人形機器人被設計為在太空站等極端環境下執行多科室手術。
孟慶虎指出,現在所説的AI大模型,實際上還是一個AI大語言模型,大家一定知道這不是萬能的,所以大家用大模型的時候,其文字處理能力做得不錯,但在圖像解析和對三維世界的理解還有很大的差別,從算力、算法和數據來看,最大的原因是數據獲取方式有嚴重問題。他進一步對國內目前資本熱捧的「具身智能」概念提出批評,認為這更應被稱為「空間智能」,並強調比起追求遙遠的通用人工智能(AGI),立足於具體應用的「場景智能」纔是當下產業落地的關鍵。目前,馬斯克和奧特曼都在做人為的數據擴維,若無法實現真正的維度擴展,就只能擴冗余度,這樣訓練出來的模型有嚴重問題。
最后,他認為,仿生機器人醫生終將到來,但這一願景的實現面臨着一個極為嚴苛的前提條件:我們必須從現在起,開始着手收集那些術式最好、且能講清楚的醫生所提供的多維多模態臨牀數據。在手術數據的收集過程中,醫生需確保手術步驟的詳盡與清晰,因為那些含糊不清、無法準確描述的數據,對於機器人而言,仍將是一團難以解開的亂麻。(楊倩)
以下是孟慶虎先生演講實錄:
孟慶虎:尊敬的潘院士,王教授,還有付先生,各位領導、各位,非常榮幸今天有機會跟大家分享一下我們在醫療手術機器人方面的一些工作,尤其在人工智能和仿真機器人這麼熱鬧的浪潮下,我們應該從哪個角度看這個問題,這一波人工智能熱潮實際上始於十年前,2015年的時候Google的CEO發佈一個講座,其中他説Google在做一個app,叫作Google duplex,演示了Google Duplex打電話去約一個剪發,整個過程中對方並不知道是人工智能的算法在跟他打電話,成功預約了這個剪發,他講了這麼一個過程,當然是他成千上萬失敗里面一個成功的案例,Google Duplex到今天為止也沒有發佈,因為成功率太低,但是這件事本身就觸動了Elon Musk和Sam Altman,他們説Google想用人工智能賺錢,這件事不能這麼干,一定要開源,要為大眾服務,所以2015年,他們倆聯手創立了Open AI,他們講這個東西不能用來盈利,要開源,大家都知道十年以后結果是什麼,剛纔潘院士講的時候講了很多人工智能大模型里很多的問題,我們要想知道這個問題為什麼會發生,就可以從人腦和計算機,從算力、算法和數據稍微做一個對比,這個問題至少給我們一個思路,我們應該從哪些方面克服目前大模型所具備的問題,人工智能不管怎麼樣,想用計算機和算法來模仿人的大腦,所以我們要了解,我們人的大腦,成年人的大腦算力到底有多大,我們不知道,有各種各樣的估算,但是沒有一個人有真正的數據,但是我們知道用了多大的算力來算人工智能的大模型,目前最大的馬斯克的20萬張H100的算力集羣是目前世界上最大的,他的Grok4待會兒會講。
我們大腦用的是什麼算法?我們都是估算,説是神經元網絡,到底是什麼樣我們也不清楚,但是我們知道用什麼樣的算法在建大模型,每次對人腦的研究,神經外科神經內科有一點點微小的變化和進步的時候,會發現算法會突飛猛進,這里面對我們大腦的認知還在不斷的進化,我們的算法也在進化,這是一個螺旋上升的過程,一個成年人的大腦到底需要多大的數據量來訓練,也沒人知道,但是我們知道,現在各家的大模型都號稱已經耗盡人類數字化的信息,但是想一下,這個地方出現一個很大的區別,我們人在成長的過程中,自從在母親的身體里形成生命一瞬間開始,我們的數據學習就沒有間斷過,而且我們的數據不是被投喂的,我們是遇上什麼學什麼,所以成為每個人成長過程中就成長為不同的人,每個人的大腦水平、發育程度,所經歷的東西,學習的數據都是不一樣,但是從來沒有被控制住,沒有被投餵過,都是自己去探索的。但是現在用的這個所謂訓練大模型數字化的信息只佔人類生活的極小一部分,而且不能完全代表人類,這樣一個數據如何能得到AGI,這個地方是我的第一個發問。
再看人的大腦,人的大腦非常厲害,除了這些客觀的數據以外,它有一個非常大的能力,我們的功耗二三十瓦,但是我們處理的能力現在比一個核電站供電的人工智能波浪線還要厲害,這個里頭到底是為什麼?我們被動接收信息的能力很強,但是主動接受就非常小,最后往往只能有非常少的記憶和做出反應,這個過程我們的大腦一直在做交集,再大的集合做交集就會變得非常小,所以我們人這麼高效在做,人工智能現在做不到,所以我們人的大腦普遍智能空間如果用維度和球體來表示,是一個接近無窮維這樣一個球體,維度很多,每個維度上有一件事,比如説這是做加法,那個是下圍棋,這樣人的維度,每個人的大腦普遍智能空間的維度是不一樣的,但是差不多趨於無窮,每個維度上面的強度又是不一樣的,有的人這個方面強,有的人那個方面強。但整體是一個球形的。
人工智能現在訓練出模型基本上是一個低維的,維度不夠,跟人比差得很遠,但是在某些維度上的強度超越人類,比如下圍棋這件事就很厲害。明白這件事就知道,現在的數據永遠不可能投放出所説的通用人工智能接近人腦的東西,機關用算力和算法去不斷的彌補但還是不行,我們舉個例子,(圖示)左下角這個圖,我們見過四腿動物和樹蔭這樣一個小孩,基本上都能看出這張圖一個狗或者一個四腿動物,聞着地皮往一個樹蔭下走去。基本上這張圖人類很容易就能看出,但是計算機從最早期到現在它要識別這張圖的方法完全跟人類不一樣的,最早期的時候是找輪廓,他找到輪廓以后比對模型,這隻狗,先把它看成一個斑點狗,這個狗的后背和左后腿完全和背景融在一塊,找它的輪廓絕對出來不了一個狗的形狀,這就很難做到模型匹配,近期人工智能流行以后,現在用的是點雲的方法,重點的地方多一點點,不重點的地方少一點點,這也是做不出來的。這就説明人工智能現在的算法和人的大腦算法完全不一樣,我們人到底是怎麼識別這張圖,現在沒有人能説清楚,這就是我們在人工智能讀圖的時候還是跟人有很大的區別。我們看看人工智能大模型的表現。
自從2022年11月30日發佈了ChatGPT以后,2023年ChatGPT就很火,2023年5月份,它是一個大語言模型,但是當時在5月份的時候他們正在研製下一代,不光能處理文字而且能處理圖像,我當時特好奇,現在這個到底能不能圖像,就把這張圖送上去讓它分析,它的回答是:很抱歉,作為一個基於文本的AI,我無法直接查看和分析圖片,如果想了解這張圖,你先給我描述它的內容,我描述了我還讓你讀什麼圖,所以它沒法幫助。同一個時期,2022年5月份,當時有一個內測版,我找我的學生在他們內測團隊做了一下,內測版當時説一個年輕女子坐在沙發上,拿着書,一頭棕色的長發,藍色的毛衣和牛仔褲等等,它從這幅圖讀出來這些東西,我們是讀不出來,這個幻覺幻得到很厲害,這就是2022年的情況。但是2022年同一個時期,Google有一個 bard,但是Google Bard也沒有那麼高調的宣傳,但是它的確,把這張圖給它,它讀出來了,它説陰影中的豹子,至少它看到了陰影,也看到了四腿隊伍,它認為是個斑點豹,但是沒有看出那棵樹來,這是2022年的時期。
回到2025年,ChatGPT5,這是我上個禮拜五給他,他看到一個黑白斑點狗站在外頭,好像靠近一個人,它看出斑點狗,沒有看出樹,它把樹看成一個人,這是ChatGPT5,這是Gmini2.5 Pro,也是最新的,就説看起來像一個黑白斑點狗,聞着地向一個陰影處好像向一棵樹的地方走去,Google實際上一直默默的做事,因為Google自己有錢,不需要去忽悠資本,但是open AI和馬斯克他們都是用技術壟斷來達到資本壟斷,來統治人類,這是他們的目的。他們要不斷的來忽悠資本,但是Google做的東西還是比較踏實的,但是也不能忽略算力的厲害。剛纔我們説算力最厲害的是馬斯克20萬張的H100,它算出來的Grok4寫的是它看起來像一個豹子,它看出來是一個斑點豹,正在通過一個稀疏草地上面的樹邊上,能看出是草地,里頭稀稀拉拉有樹,這個豹子正在向樹下走去。這個結果相當不錯的。
ClaudeOpus4.1也是看到一個四腿動物,它把樹蔭看成一個水池子,也看成了水的發光。這個地方還是有一點距離。
國內的幾個表現怎麼樣。
豆包説這是一個斑點狗的錯覺圖,就説這是一個斑點狗,看出斑點狗,沒有看出樹蔭。
訊飛星火和DeepSeek試圖在這張圖里做文字提取,它們不會讀圖,這兩個告訴你我讀不了圖,但是這里面沒有什麼文字可以提取。通義就説這是一個山水畫,里頭有漁夫,有釣魚的樂趣,整個一個幻覺。元寶説的稍微好一點,這里面像展示一個獵豹在户外環境中活動的場景,當他説背景的時候,他提到了樹,現在花了這麼多精力,而且投入這麼多人工智能的大模型,再看人類非常容易看清一張圖的時候,他們會出現各種各樣的問題,這個問題在於至少我們理解我們人肯定不是用他們這個人工智能的算法來理解這張圖,所以這個算法是一個最大的瓶頸。
再説仿生機器人,1973年在早稻田教授加藤一郎教授第一個做出來的仿人機器人,他做的仿人機器人當然用語音控制,這個機器人可以語音回答,但是看到這兩隻手當時是有觸覺的,所以加藤一郎教授當時提出來説仿人機器人一定要語音交互。但是從波士頓動力學到現在,基本上所有的仿生機器人出來都是啞巴,這個里頭后面會分析,就是有問題。但是加藤一郎當年的初心一定要像人一樣,他已經去世了,他現在的實驗室負責人叫Sugano教授。
波士頓動力學輝煌了20年,這張圖是早年波士頓動力學第一代大狗演示的視頻,我跟這個大狗還是有一點的緣分,這個大狗總工程師叫馬丁布郎(音),當年我們兩個人都在加拿大做教授,我們兩個人聯合申請一個項目,這是我當年邀請他到中國來,他在山東大學看到我們做的小的電動狗,他騎着轉了一圈以后,他説:了不得,你們這點時間這點錢就能做出這麼好的東西,當年在加拿大做了加拿大國防部的項目,叫作野外運輸作戰平臺,我做了四個輪,他做了四個腿,最后加拿大軍方採用了四個輪的方案,四個腿就沒有被用,他的博士后導師就是波士頓動力學的老闆Raibert,當時説四個腿加拿大沒用,你把它拿過來,我們去忽悠一下美國軍方,結果他們就把那個拿到美國DAPEI(音),DAPEI(音)居然給他們錢支持他,讓他們做。這樣他就辭職,回到波士頓動力學做大狗的第一任總工程師,這個項目實際上是從加拿大開始的。
做完第一任總工程師以后就不干了,就從波士頓動力學離職了,后來去了迪士尼機器人,現在他自己在加州創業,做烹飪機器人。他覺得那個更靠譜,他當時就説那張圖,剛開始看的那個冰上面居然沒有倒,實際上那天在測重力在雪地里的反應,在雪地里到底能馱多少東西,能走多快,結果走着走着,那個大狗自己就走到停車場了,那個角上正好有一攤冰,他們的攝像機就一鏡到底,沒有停,結果居然那天就穩住了,沒有栽倒,所以看視頻的時候也不要光看這個,這是一萬個不幸當中的幸運,他留住了,他跟我講了內幕,這些東西我們看視頻的時候往往展示的是他想給你看的東西。
我們説的仿生機器人,到了現在馬斯克説擎天柱將來要進汽車廠裝配汽車,走路顫顫巍巍,裝配的效率,他為什麼要這麼説?他不這麼説怎麼可以打造一個他自己的目標是35萬億美元的帝國,天上有space,地上有特斯拉,輿論有X,還有擎天柱機器人,他就是用這種東西來忽悠資本,最后就能夠實現商業目的,馬斯克上個禮拜又發佈一個最新的訪談,他那個訪談里面就説擎天柱可能不會像我原來説的那麼快來到工廠打工,現在解決不了一個重大的問題就是手的問題,原來我們以為這個東西沒有那麼難,現在比我們想象的要難,尤其里面沒有像人的皮膚,操作能力等等,現在做手的人都有一個錯誤,他説現在只做手這部分,實際上手應該跟臂一塊兒做,手的靈巧實際上都是在臂上控制,如果用一個手,你想要把它做的這麼靈巧,非常難。另外一個是感知,他自己現在又開始放軟話,要往后走,不管怎麼樣,美國負責畫餅,我們國家總是給他非常認真的烙熟。這是深圳眾擎機器人的跑步機器人,跑步的姿態、走路,我放這段的原因這是我的博士生畢業以后去做,他當年在香港中文大學跟我讀博士的時候,論文題目是仿生機器人的運動機制及控制,他就做了這個,做完這個以后跟他祝賀,言你們這個東西做的不錯,他問了一句話,他説老師下面做什麼,你們是做這個行業的,你問我下面做什麼,我説:你們要干什麼?他説:我們希望這個能去養老,能在家里幫老人養老。第一這個機器人現在能干什麼,能不能給老人擦個屁股,他説:擦不了,我説:擦不了就去看一下一個保姆在家里面從早到晚做的這些事,用機器人實現把它從易到難排個隊,一個一個做,大概要5年的時間,你能把所有的技術落地攻克,前提條件不能改造家庭的環境,不能説上來買一個機器人得把家里整個改造一遍,那個不行的,再用五年的時間把成本打到老人可以買得起,養老機器人5到10年之內大量的產業化可能性不大,講故事容易,演PPT也容易,但是把其中家務活中每一件事要做好,成功率非常高,非常難。我目前的理解這就是仿生機器人。
今天的內容主要講手術機器人,手術機器人相對仿生機器人進步比較慢,原因就是它的目的性很強,它上來就是要做手術,而且國家和國際上監管非常厲害,必須要做大量的臨牀試驗驗證,還要拿三類證,國家是控制的,然后纔可以賣,不是今天在家里存一個機器,明天只要有人出錢就可以賣,這是不行的,所以手術機器人還是比較慢的,我們的旗艦,現在國際上最領先的就是達芬奇,達芬奇剛剛在前幾個月發佈達芬奇5,達芬奇是一家非常成功的商業團隊,技術來源於2001年收購的宙斯團隊,機器人20年基本上沒有什麼變化,但是全球裝機量接近6千台,這是非常厲害的商業成功。第五代加了一個力傳感,力傳感加了以后整個效率提升都不足40%。20年基本上沒有什麼太大的變化,主要是商業裝機,現在全球已經有各種各樣模仿達芬奇和超越達芬奇的產品,都在層出不窮的(出現),我們國內也有很多模仿達芬奇的,但是悲劇一點是模仿但是沒有創新,達芬奇沒有力反饋的時候,他也沒有力反饋,等到達芬奇加上力反饋,大家一窩蜂上去加了力反饋,但還是有一些公司在做超越達芬奇,我們就在做后達芬奇58根手術機器人(音)GoogleMAKO也是最早進入市場的,今年也推出了MAKO4,MAKO4換湯不換藥,用的機械臂還是20年前的WAM機械臂,控制檯和導航儀搞到一起去了,工業設計稍微好了一點,跟我們現在國內的比,不管怎麼樣説,從技術上跟國產現在已經沒有任何優勢了。
今天我提的一個問題是因為是未來大會,未來仿人機器人會不會替代外科醫生?
今年年初的時候在香港有一個會議,約翰霍普金斯Russel Taylor號稱是手術機器人之父,第一個創造Robot Dart,做骨科機器人的,所以説他是手術機器人之父,也是美國國家手術機器人中心的主任,全美就那麼一箇中心。
另外一個人是人形機器人最原始的主任Sugano,這兩個都是多年的老朋友,見到他們以后跟他們倆探討這個問題,我問他們:手術機器人你覺得將來會不會被仿人機器人來做手術替代,Russel Taylor想了想説不會,他説不會我也非常理解,因為他的團隊從他做Robot Dart開始,他的願景是連醫生都不用,何況還要用一個醫生的仿人機器人,所以他是不會用的,因為他們的公司7月份在science robotics發佈全球第一例全自主機器人切除豬的膽囊,連切了5個,全部是自主,沒有人工參與,而且5個全部成功,所以在他認為,既然我做手術機器人,連醫生都不要,還要一個醫生的仿生機器人干嘛。我問Sugano,他説yes,這個觀點不光我説yes,他説日本有一個計劃MoonShot2050,這里面我們的人形機器人就是要做手術的,先看Russel Taylor他們剛發佈的東西,7月份的時候他們在science robotics發了一篇文章,他們做了5台豬膽囊全自主機器人,中間沒有一個醫生護士介入,就是機器人完成所有的手術,5台全部成功,這是一個里程碑式的東西,非常厲害,在他來説手術機器人都取代了醫生,所以仿人機器人醫生更不是不需要。
這是日本的MoonShot2050計劃,它有好多的因素,其中一個部分,比如在太空站,不可能上一個醫療團隊,更不可能把每一個科室的醫生都放上去,平時端水倒茶的服務人人形機器在關鍵的時候下載一套軟件,把手臂換成手術工具,它就來完成手術。在日本科研計劃里面,沒有一項專門做仿生機器人的,儘管日本首先開創仿生機器人這個行業,但是他們沒有一個國家級項目做什麼,他們的國家級現在最大的項目就是MoonShot 2050,把人形機器人作為其中主要一個單元來完成的,目的是要完成各種各樣的任務。如果仿人機器人來做手術有什麼好處?機器人是一個硬體再加上智能體,這就是醫生的智慧和醫生的經驗,將來有可能出現什麼情況?醫生在忙的情況下智能體何以其他的專科醫生就一塊兒可以進行虛擬會診。在醫生不知情的情況下做了決定和手術,如果這個環節當中,醫生還是要批一下的話,這是有可能的,但在將來,我們現在人工智能的算法、人工智能的診斷已經可以拿到三類證,已經得到許可,如果這些都能許可的話,將來一個著名醫生的虛擬智能體與人形機器人就可以完成手術,現在飛刀要到一個地方做,將來用100個智能體在100個地方同時做手術。
眾體合一,在空間站不可能上所有的專家,所以一個智能體融合了神經外科、胸外科、肝膽外科、泌尿科、骨科所有人,每次你需要不同的手術就需要下載這個軟件,然后換上它的末端工具,你就變成了這方面的專家。所以,這個東西我覺得一定會到來的。
總結一下,現在所説的AI大模型,實際上還是一個AI大語言模型,大家一定知道這不是萬能的,所以大家用大模型的時候,目前文字做得不錯,但從圖像和對三維世界的理解還有很大的差別,從算力、算法和數據,最大的原因是數據獲取方式有嚴重問題,目前馬斯克和奧特曼都在做人為的數據擴維,擴不了維,就只能擴冗余度,這樣訓練出來的模型有嚴重問題。
另外,國內對具身智能炒得有點過了,這是50年代一個老概念,有極大的侷限性,像李飛飛從來不提具身智能,而是提spatial intelligence(空間智能)。不管一個什麼樣的東西,如果要跟人工智能,與現實社會結合,人在三維世界,所以空間智能更重要。
黃仁勛提出的人工智能機器人三層的運算模式當中,具身智能只是佔最底層中的一小部分,所以我們一定不能將自己的思維限制在具身智能這個坑內,然后就很難做,像剛纔説的人形機器人,實際具身智能好像就是智能的事,容易讓大家認為,現在一聽好多演講,尤其是做人形機器人的,就強調現在不好的地方是因為智能不夠,實際馬斯克説的不是智能不夠,而是硬件不行,是那個手和臂的問題,我們過去幾年提的概念是「場景智能」,剛纔院士提的「垂直領域」,場景智能實際就是瞄準一個場景應用,我要解決這個問題。
舉一個例子,膠囊內窺鏡,它有圖像,但讓它識別文字和人臉都不會,但你一旦將它吃下去,從口腔到肛門,整個消化道中的異常它都可以非常精準地給你找出來,這樣一個系統,我用一個臺式計算機就可以解決所有的問題,這是一個場景智能的例子。
通用人工智能,實際我認為它是一個極限值,我們永遠奔着這個目標去,但永遠達不到AGI,原因是我們剛纔分析的數據算法和算力,這些我們現在能控制的就是算力和算法,但算法跟人腦還是有巨大差別的,而且最難辦的是我們不知道這個差別在什麼地方,我們只能不斷地嘗試,用輸入輸入法無窮逼近,這個效率非常低,導致我們需要巨大的算力,人是二三十瓦的裝置,所以這里邊還有巨大的空間可以做。
如果我們場景智能將人類生活的所有場景都覆蓋了,然后這個時間趨於無窮,最后一定會達到AGI,好多人説明年、后年達到AGI,我覺得這件事不太靠譜。
回到數據,圖靈1947年就講得非常清楚,我們想要的是一臺能從經驗中學習的機器,不是將你數字化的用完就完了,然后再造一些冗余數據,要從經驗中學習,圖靈實際上1947年就告訴你發財之路在哪里,現在做人工智能的,標註數據的是比較賺錢的,做大模型的都是燒錢的。未來,Rich Sutton2025年圖靈獎獲得者,也是我原來在阿爾伯塔大學的一個同事,他在最近的一個演講中,説:大模型已經逼近人類的數據邊界,真正的智能應該像嬰兒在感知行動中自我學習。人類形成普通智能的過程,是我們的數據從來不被投喂,我們也從來不被關機,我們是逮着什麼學什麼,於是就形成了各種人類,但目前人工智能根本就沒有機會,我們的數據都是投喂的、篩選、人造的,期待這樣的數據可以投喂出像人一樣的智能,我覺得這是不可能的。
在這個時刻,我們要學習掌握AI作為一個工具,用場景智能替代通用模型落地為王,你賺不到錢,你什麼都是瞎説、胡鬧。
一個人形機器人,現在有那麼多人幫你開發,你選一個最好用的,30萬、50萬,100萬到頂了,你可以選一個頂級頂定的人形機器人,再給它裝上末端工具和算法來做手術,和一個專用的手術機器人,一家研究一臺,根據這個技術儲備和能力算,而且費用那麼高,你覺得從商業上哪個存活率會更高?我覺得仿生機器人醫生終將到來,但有一個非常嚴苛的前提條件是,我們必須要從現在開始收集這些術式最好的,而且能講清楚的這些醫生的多維多模態的臨牀數據,在這個手術數據的收集過程當中,醫生要將過程講清楚,講不清楚那些數據,對於機器人來説還是一團麻。