繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

專訪羣核科技黃曉煌:我們要做和Sora不同的「物理世界模擬器」|甲子光年

2024-11-21 13:14

「家居SaaS」是對羣核科技最大的誤解。

作者|趙健

2024年,讓人工智能理解物理世界,正在成為AI產業界的新浪潮。

從年初OpenAI震撼發佈的「世界模擬器」Sora,到年中黃仁勛預言AI的下一個浪潮將是「物理AI」,再到國內外大大小小的具身智能公司雨后春筍般成立,AI正在慢慢從虛擬世界走入物理世界。

但讓AI走入物理世界,遇到的最大瓶頸之一就是數據。MIT發佈的一項研究指出,高質量的數據可能會在2026年消耗殆盡。因此,行業基本都轉向使用AI產生的合成數據訓練模型,以期突破數據瓶頸。

能做合成數據的公司並不少,但能做包含真實物理規律的、大規模的高質量合成數據的公司,全世界範圍內可能只有一家——位於杭州的「羣核科技」。羣核科技董事長黃曉煌笑言:「如果你知道還有第二家,麻煩請你告訴我。」

羣核科技是誰?

這是一家成立了13年之久的科技公司,在軟件行業有一款知名的產品——「酷家樂」。酷家樂在大家居設計軟件領域有大約70%~80%的滲透率,用遙遙領先形容並不為過。然而,在大家居行業的成功卻讓很多人誤以為酷家樂就是羣核科技的全部。

黃曉煌説,如果用家居SaaS來形容羣核科技,是對羣核科技最大的誤解。

2020年,羣核科技發佈四大戰略:「從家居到全空間,從設計到全鏈路,從工具到全生態,從中國到全世界」,至今未變。

圍繞這一戰略,羣核科技已經形成多款產品矩陣:空間設計與可視化平臺「酷家樂」,酷家樂的海外版本「COOHOM」,專注於BIM(建築信息模型)解決方案的「酷空間」,以及最新發布的提供合成數據服務的「羣核空間智能平臺」。

11月20日,羣核科技首次對外公開了其兩大技術引擎:羣核啟真(渲染)引擎和羣核矩陣(CAD)引擎。

羣核科技業務線看上去複雜多元,如何理解這些業務線背后的內在邏輯?其實就是技術驅動。這條技術主線有兩條:一是基於GPU集羣的高性能計算,羣核科技有一萬台GPU服務器為其各條產品線做算力支撐;二是物理正確的認知與數據平臺,羣核科技將其定位為「物理世界模擬器」。

羣核科技CEO陳航發佈產品架構圖,圖片來自羣核科技 羣核科技CEO陳航發佈產品架構圖,圖片來自羣核科技

可以説,這兩條技術主線就是羣核科技的錘子,在此之上所有的產品、行業解決方案,都是業務飛輪效應下找到的釘子。

本文,「甲子光年」對話黃曉煌,來拆解非典型的科技創業公司羣核科技,是如何拿着一個錘子找到了滿世界的釘子。

1.家居SaaS是對羣核科技最大的誤解

甲子光年:羣核科技成立於2011年,已經走過了13年之久。先介紹下羣核科技的發展歷程?

黃曉煌:我本科在浙江大學竺可楨學院讀完之后,拿了英偉達的全額獎學金去美國伊利諾伊大學香檳分校(UIUC)讀計算機博士,當時選擇的研究方向是用GPU做高性能計算。畢業之后我加入英偉達,給GPU芯片開發並行計算的編程框架以及CUDA的開發,后來回國之后與另外兩位聯創創立了羣核科技。

那時候GPU基本都是在本地運行,我們最初的想法是把GPU放在到雲端,以支持需要高性能計算的應用,比如渲染。我們採用的GPU架構叫Many core processor——多核心處理器,也是公司名字「羣核」的來源。

當時渲染基本都是用在遊戲或者類似遊戲的藝術場景,我們創業之初的第一個idea是利用GPU來實現「物理正確」的渲染引擎——就是要求渲染出的圖與真實的物理世界一模一樣的視覺效果,當時參考了一本書叫《Physicallly-Based Rendering》。當時做物理正確的渲染最主要的問題是慢,而我們正好通過自建的GPU集羣來加速這個渲染過程,將原本需要幾十分鍾才能渲染出一張圖的速度提升至僅需十秒。

后來我們發現只賣一個渲染的雲服務是很難生存的,所以我們做了酷家樂這個產品,就是為渲染引擎做了一個軟件框架,讓用户能夠直接在網頁上傳三維模型,直接快速渲染出圖。酷家樂的產品發佈后,在大家居行業一炮而紅,吸引來了大量的設計師。我們就沿着這條路一直做下去了。

甲子光年:你和兩位聯創都是研究高性能計算方向,為什麼創業選擇從家裝這樣一個傳統場景切入?

黃曉煌:其實不是特意進入的,創業之前我自己一套房子都沒有,沒有碰過裝修,不知道裝修是什麼東西。

我們是先做出了雲端GPU的快速渲染能力,然后拿着這個錘子到處找釘子。當時嘗試了好多行業,包括機器人、家居、電影等等,只不過家裝行業反響最好,更願意為此買單。而且當時中國的家裝行業正處在爆發期,所以我們就先選擇做好這個場景。

從技術層面看,當時的GPU渲染技術更適用於無機物(比如桌子、玻璃等)場景的渲染,還無法實現對人、風景等複雜有機物的逼真渲染,而家居場景恰恰是無機物為主。當然走到今天我們已經不再是一個家居公司了,這也跟技術的發展有關,AIGC的興起讓傳統渲染不止能做無機物,還能模擬複雜的有機物,因此我們現在也在廣告營銷、電商棚拍等場景落地。

甲子光年:因為酷家樂這款產品一炮而紅,很多人也把羣核科技當作家裝SaaS公司。羣核科技后來是怎麼發展出更多產品的?

黃曉煌:我們最開始是從家裝設計切入的,后來自然而然延伸到了大家居行業。在2017、2018年我們提出了「從家裝到家居」的戰略,從只做裝修公司,到開始做大家居行業,大家居行業涵蓋賣家俱、全屋定製,電器等等領域。

從大家居行業做深之后,我們發現純做效果圖還是太淺了。當時正好國內在推「中國製造2025」的概念,我們就想既然用户已經在酷家樂上設計好了,能否直接拿着設計圖去生產。於是,我們花了好多精力去研究怎麼把一套設計的效果圖變成機器能夠理解的語言,比如用CAD的AI功能自動讀圖紙來替代傳統的人工從零到一的設計,然后把它生產製造出來。

裝修行業主要是設計師、營銷部門在用,生產製造更多的是製造業跟工廠在使用。后來我們推出了一個新的戰略,即「從家居到全空間」,包括公裝、小型建築設計、連鎖商業、文博展覽、廣告設計等全場景滲透,從設計到生產製造環節全鏈路覆蓋。

所以説,酷家樂只是羣核科技的起點,后來又做了酷家樂的海外版COOHOM、酷空間、羣核空間智能數據平臺等好幾款產品。如果用家居SaaS來概括羣核科技,那是對羣核科技最大的誤解。

甲子光年:海外版COOHOM做的怎麼樣?

黃曉煌:海外版主要針對美國、韓國、東南亞這幾個市場,全球落地了200多個國家和地區。比如韓國最大的家俱製造商Hanssem(漢森),以及美國的幾家頭部科技公司都是我們的客户,東南亞也簽了大量的線上用户與線下客户。

今年,COOHOM註冊用户數突破了1000萬,而且也獲得了全球最大的軟件測評網站G2的認可,在渲染可用性指標上擊敗所有其他渲染引擎,成為全球第一。

甲子光年:今天,羣核科技會去對標誰?

黃曉煌:如果是在數字化的軟件與解決方案方面,對標的主要還是Adobe、Autodesk這樣的公司,但我們的產品形態、交互形態可能都不太一樣。而且現在又有了合成數據服務。從技術底層來看,「GPU算力集羣+物理世界模擬器」這兩個標籤加成似乎很難找到合適的對標對象,要是大家找到了,非常歡迎告訴我們。

甲子光年:羣核科技是典型的「拿着錘子找釘子」的路徑跑出來的,但有一種觀點認為,「拿着錘子找釘子」是行不通的。你怎麼看這種路線?

黃曉煌:「拿着錘子找釘子」行不通,只是VC(風險投資)覺得行不通,但對於創業者來説是行得通的,我甚至認為這是唯一成功的路徑。創業不可能今天做AI,明天跨境電商火就做跨境電商,后天生物科學火就去做生物科學,這不靠譜。

英偉達實際上也是拿着GPU這把錘子到處找釘子。我十幾年前在英偉達工作的時候,英偉達還是一家不太起眼的小公司。當時在硅谷聚會,女生一聽説你來自英偉達,禮貌性打個招呼就走。

我們剛開始出來創業做基於GPU的高性能應用,很多VC都説GPU根本不靠譜,都快被淘汰了,未來是移動互聯網時代,是Arm時代,你別搞GPU應用了,也不投我們。所以説,不同的角色視角是不一樣的。

2.羣核科技的底色是一家科技公司

甲子光年:羣核科技在2015年成立research lab,在2021年成立前沿技術實驗室(KooLab),2023年還成立了AIGC實驗室。為什麼羣核科技如此重視前沿技術的研究?

黃曉煌:羣核的底色還是一家科技公司,我們不是在做那種Copy to China 的產品,直接模仿就行,而是用新的產品替代傳統的軟件產品,是一個從0到1的過程,需要做很多探索的工作。我們在創業的時候確實發現了很多解決不了的技術問題,需要不斷地研究跟摸索,所以我們當時就想招一些博士生專門來解決這些問題,就開始了research lab的探索。

長期來看,對前沿技術的投入確實很大程度上增強了公司的產品的競爭力,我們最近發佈的羣核空間智能平臺、多模態CAD大模型等都是來自research lab的探索,但這些東西都是做了四五年之后才慢慢變成熟的。另一方面是我們通過做research也吸引了很多優秀的學生來實習、一起發論文,也吸引了很多優秀的人才加入我們公司的團隊。

甲子光年:做前沿技術的投入會考慮ROI嗎?

黃曉煌:很難考量ROI,一開始完全出於興趣,也沒有具體的財務訴求。比如聯合帝國理工等發佈的InteriorNet論文,一開始只是覺得合成數據的訓練方法對於產業界很有價值。如果我們的工程師發現某個東西有價值,但好像又無法變現,做成產品又沒有什麼意義,那我們就鼓勵發論文。

甲子光年:羣核科技首次公開了兩大技術引擎,分別是做什麼的?

黃曉煌:它們就像是鏈接物理世界和數字世界的橋樑。

啟真(渲染)引擎是羣核自研的端雲一體光線追蹤引擎,能夠幫助用户將想象力映射在物理空間中,並保證其物理正確性,實現「所想即所見」。

羣核矩陣引擎則支撐了酷家樂等產品場景中「所見即所得」的部分,一方面通過多模態CAD大模型對物理世界中的多模態空間信息進行認知理解,並將之轉化為物理空間方案。另一方面,在物理空間方案基礎上,通過幾何參數引擎、BIM引擎最終對接回物理世界的生產施工環節。

圖片來自羣核科技 圖片來自羣核科技

甲子光年:啟真渲染引擎是羣核科技成立以來就做的事情,一做做了十幾年。這件事的壁壘是什麼?

黃曉煌:我們也是隨着產業界的發展而不斷發展,比如剛創業時,學界論文的重點突破是如何通過GPU的並行計算來優化物理正確的渲染器;2022年開始AIGC出現后,大家研究的是如何讓AI與渲染結合,讓渲染效果更快、更真實。

自2012年以來,啟真引擎歷經了4次版本迭代,這次新推的啟真3.5在渲染速度、逼真度、通用性和智能化層面都實現了大幅提升。不僅實現雲端實時渲染,更達成對物理世界的寫實級渲染。

甲子光年:AIGC的出現,給兩個引擎帶來的升級分別是什麼?

黃曉煌:首先AIGC對渲染的影響非常大。原先學術界實現的物理正確的渲染引擎,其算法只能描述無機物的表面特徵,比如石頭、玻璃。但有機物的表面特徵,比如動植物、人類,是很難描述清楚的。所以,過去的渲染主要集中在沒有有機物的室內場景。

AI可以對畫面光影、色彩等元素進行真實感增強,包括人物、動植物等一直是渲染難點的有機生命體也實現了畫質提升。這在很大程度上解決了傳統渲染器無法描述很多物理特性的問題。所以我們現在既能模擬物理世界的無機物,也能模擬有機物,可以渲染真實物理世界99%的材質,覆蓋3C數碼、家用電器、家居軟裝、户外等多個領域的渲染需求,然后我們拓展應用到了電商、廣告等更多場景。

CAD識別技術也在AIGC的加持下,實現了從二維圖紙到三維模型的智能轉換。過去AI在對2D設計圖紙進行閲讀時,缺少空間想象力,這是人所獨有的,多模態CAD識別引擎對物理世界產生的、或存在的設計數據進行了翻譯、兼容和數據流轉,用AI把各類設計數據識別成符合物理真實的參數化數據,再通過BIM引擎回到物理世界進行落地。它同時打破了原先設計領域BIM、幾何參數化、3D等多套引擎的數據孤島,讓AI輔助數實轉化和數實融合。

圖片來自羣核科技 圖片來自羣核科技

比如在一個在商業空間的設計落地過程中應用中,設計師只需導入CAD圖紙,系統便能自動識別並生成含參數化的空間方案,精準呈現佈局和家俱尺寸, 無縫銜接落地施工。同時,通過AI識別,CAD圖塊可以直接轉換為成物理正確的模型,支持與生產、施工環節的對接。

3.做物理世界模擬器

甲子光年:今年AI行業的一個重要變化就是越來越關注物理世界,比如李飛飛提出的空間智能。為什麼AI圈子開始關注物理世界了?

黃曉煌:我在UIUC讀博士時,專業是用GPU來做高性能計算。我的導師給我的課題是:當未來算力提升1000倍,你要研究的方向是什麼?當時就做了兩個,一是模擬人腦的運行,二是模擬物理世界的運行。我選擇的是后者。

這幾年隨着深度神經網絡的發展,用機器模擬人腦已經獲得了巨大突破,標誌性事件就是ChatGPT的誕生。但我們也意識到,我們發展AI本來是希望AI能替代人類打掃衞生、做家務,現在卻是人類在打掃衞生、做家務,而AI在寫詩作畫。所以,讓AI從虛擬世界走入物理世界,去幫人類執行物理世界的任務,是技術發展的必經之路。只是現在這個橋樑怎麼建設,還需要比如具身智能行業的進一步探索。

甲子光年羣核科技為什麼選擇模擬物理世界?

黃曉煌:羣核最早是想做一個高性能計算公司,切入點就是用高性能計算的GPU做物理正確的渲染模擬。后來,爲了做工業4.0我們做了物理正確的矩陣引擎,用來做柔性生產,包括生產線的AI檢測。

有了這個基礎之后,我們就可以通過AI連接整個物理世界,包括現在所有的設備。AI通往物理世界的橋樑肯定不是ChatGPT,而是把物理世界映射到數字世界,因為機器人的大腦實際就是數字組成的世界,但觸覺是物理世界。

我們基於先前的積累,是最具備這個條件幫大家解決問題的,比如矩陣引擎就是把數字世界體現地跟物理世界一模一樣。因此,我們把自己定義為「物理世界模擬器」。

甲子光年:Sora將自己定義為「世界模擬器」,但會生成一些「物理錯誤」的視頻。你們強調物理正確,跟Sora的區別是什麼?

黃曉煌:Sora之類的產品對於物理世界的理解是「訓練」出來的,即通過大量的視頻輸入,模型根據前面幾幀去猜測后面的幾幀,終究還是猜測出來的。但真實的物理世界非常嚴謹,比如宇宙是怎麼運行的,沒有任何的隨機性。我們的用户羣體更多是在產業界做非常嚴肅的產品,所以我們非常強調物理正確。

舉個例子,你想渲染出一張桌子的三維模型圖,渲染引擎會對這個需求進行解構,所解構的元素就是物理正確的元素,比如材質、空間大小、環境、光線,然后根據這些元素渲染出相應的效果。

用AI訓練出來的模型很難找到物理規律。此外,還需要有大量的物理標籤,比如同樣兩扇門,塑料材質與金屬材質的特質就完全不一樣,沒有這些信息就沒辦法準確地表達。所以我們強調物理正確,就是包含了物理世界所需要的所有物理參數的信息,這件事已經積累了十幾年。

甲子光年:在物理世界模擬器的基礎上,羣核空間智能平臺是怎麼誕生的?

黃曉煌:我們從第一天起就意識到了數據的價值,最早是用我們積累的數據訓練AI模型來做工業設計場景的AI檢測,因為生產製造過程中經常遇到設計錯誤,AI檢測可以節省90%以上的人工檢測的時間。

我記得很多年前李飛飛發了ImageNet,但這些都是靜態、不可互動的數據,我們覺得不可交互的數據能力有限。

2018年,我們跟英國帝國理工大學、美國南加州大學、浙江大學等高校聯手推出InteriorNet數據集,為室內環境理解、3D重構、機器人交互等研究提供數據基礎。這篇論文在學術界轟動一時,大家意識到到,原來空間智能的訓練還可以這麼做。

甲子光年論文發佈之后,業內有什麼反饋?

黃曉煌:論文發佈之后不久,我們收到了一封漂洋過海的來自硅谷某科技巨頭的郵件,提出想跟我們就合成數據合作,當時我們還以為是騙子,因為很難想象硅谷巨頭會主動給一家名不見經傳的中國小公司發郵件。但后來,你能想到的所有硅谷大廠都陸續給我們發了郵件。我們這才反應過來這應該不是詐騙。

這時我們意識到,合成數據的機會來了。后來我們便做了一個體系化的產品Coohom Cloud,就是今天的羣核空間智能平臺的前身。后來,國內開始有機器人、具身智能等企業找到我們合作。

甲子光年:這個數據集為什麼引起了轟動?

黃曉煌:這個數據集是物理正確的合成數據。當時通過合成數據做機器人訓練已經在學術界驗證過了,可以達到與真實世界95%的正確率。而當他們在尋找這方面數據時,在全世界範圍內就找到了我們一家,説明這樣的數據在全球範圍都很稀缺。

最近李飛飛發佈一篇「數字表親」的文章,就是説如果用與真實物理環境一模一樣的,即物理正確的虛擬場景去訓練機器人的話,可能會達到與真實場景訓練99%的效果。

而且在現實世界中訓練機器人,成本高昂、難以擴展;相比之下,模擬數據是一種性價比更高且潛在無限的訓練數據來源。

甲子光年:國內第一個合成數據的客户是誰?

黃曉煌:是一家掃地機器人企業。在疫情之前,掃地機器人的算法訓練可以在真實空間場景進行,但疫情期間就難做這類實驗了,甚至員工都沒辦法到公司上班,這時候虛擬空間的實驗就成了救命稻草。

可以分享一個令我意外的場景:早期掃地機器人是通過碰撞來轉向,最怕碰到的極端場景是家里寵物的糞便,因為掃地機器人的激光雷達不會識別寵物糞便,碰到之后也不會停下來,會把家里拖的到處都是。

掃地機器人公司想用攝像頭替換激光雷達來識別寵物糞便,但幾乎不可能找到一個充滿貓屎狗屎的真實場景做實驗,只好找到我們通過合成數據來訓練為這個項目。做合成數據的設計師為此研究了好幾天貓屎狗屎,你現在可以在我們平臺上搜到不同類型的寵物糞便哈哈。我記得之前還有個設計師在微博吐槽説,貓屎有必要做得這麼逼真嗎......

甲子光年:合成數據是否永遠無法達到100%真實數據的效果?

黃曉煌:理論上真實數據量足夠大,肯定比合成數據的效果好。但真實數據、真實場景的成本太高了。在成本有限的前提下,100萬個虛擬場景訓練出來的效果,可能會比1萬個真實場景的效果更好。所以實際上,大家都是先在虛擬場景里訓練,然后再到真實場景里優化。

甲子光年:要想做合成數據,需要具備哪些能力?

黃曉煌:首先,羣核科技在過去積累了海量的物理正確的空間數據,具備了空間認知的能力。其次,有了這些數據才能訓練一個合成數據的模型,讓一個空間能變成四個空間、八個空間,同時還要具備編輯器的能力,以針對特定場景做修改。

甲子光年:羣核的數據服務讓我想到了ScaleAI,羣核跟ScaleAI算是競品嗎?

黃曉煌:我們跟Scale AI服務的是類似的客户,但原理完全不一樣。Scale AI提供的主要是真實數據的數據標註服務,我們是做合成數據,我們的成本更低,性價比更高。合成數據這件事,沒有工具集與長時間的積累,是做不了的。不同的客户對於數據標註與合成數據的需求側重點也不太一樣。

4.AI時代的商業模式是「Agent as a Service」

甲子光年:你如何看待這一波大模型、AIGC浪潮的前景?這是一次新的生產力革命嗎?

黃曉煌:我們從2015年開始把AI引入生產製造,確實看到了AI在解放生產力上的巨大威力。過去AI替代人類做重複性的體力勞動,現在AI將會替代人類做重複性的腦力勞動。就像圖紙的審覈,原先是很無聊的工作,在辦公室里成天看圖紙,腦子都要炸了。現在我們實現AI審覈圖紙,達到90%以上的正確率,只是最后10%需要人工介入一下。

甲子光年:現在大家有時會有一種疑問,覺得AIGC發展兩年了,似乎對於生產力的改變有限。你會有類似的感覺嗎?

黃曉煌:其實在我們的產品里,AIGC早就集成進去了,每年有幾十萬、上百萬的人才使用。只是説,我們的產品形態跟一些AIGC的產品形態,比如文生圖的Midjourney,完全不一樣。在中國如果做得那麼薄,很難落地,很難做成商業級的產品。

甲子光年:為什麼難落地?跟過去的軟件產品有什麼不同?

黃曉煌:過去我們做軟件,壁壘都是規模,工程規模。因為寫軟件的工程書本來就不多,工作量大了之后投入就很大,如果別人做一個類似的產品也無利可圖,他就不做了。這是原來軟件產品的商業壁壘。

但今天技術發生了變化,一些簡單的代碼都能用AI生成,一些相對簡單的系統純靠工作量已經無法形成壁壘,所以就會有一些公司被顛覆掉。還有一些工作流也會被AI取代掉,比如客服、報銷,甚至一些HR流程。

甲子光年:你會擔心羣核科技被新的AI、大模型技術顛覆掉嗎?

黃曉煌:我覺得不會。羣核科技不是一家很側重算法的公司,更多還是算力的優化,以及后面發展出來的物理正確的數據積累。所以,如果從AI三要素——算法、算力與數據來看,羣核科技更側重算力與數據。我們其實也很樂意看到大模型公司層出不窮,有一些我們會用他們的產品,有一些也是我們的客户。大家的生態位不一樣,是互相成就。

甲子光年:雲計算時代是Software as a Service,AI時代是Model as a Service,這種變化會帶來什麼?

黃曉煌:我對Model as a service還是比較質疑的,我更推崇的是Agent as a Service。商業模式也在發生變化,比如過去是按坐席(人頭)收費,現在是按工作量或者算力付費。現在很多工作是AI來完成,如果還按坐席收費,人越來越少不是把自己給革命掉了嘛。

我們兩年前就發現了這一趨勢。比如AI審覈一開始是按用户數量收費,當給客户提效10%、20%的時候,客户很高興,買了很多賬號。但是當AI提效到90%的時候,我們突然發現用户沒了,客户付費反而越來越少了。

后來我們反應過來,SaaS只適用於給人小幅提效的模式,當AI大幅提效甚至替代人工的時候,SaaS的模式就有缺陷。因此,當今天能夠接近替代人工的AI Agent出現,就需要有新的商業模式。今天的Runway、OpenAI,都是按算力付費的模式。我們也在向這個方向轉型,就是按工作量付費,否則越提效優化的反而是自己。

甲子光年:你期待羣核科技能做到多大的規模?

黃曉煌:當然是越大越好了,比如1000億美元以上的世界級Top科技公司,哈哈。

封面圖由AI生成)

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。