繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

95后,估值1000億!馬斯克、奧特曼背后的天才少年

2025-01-18 18:51

作者:微瀾

如果要列出當下全球最有權勢的一位95后,他的名字應該大多數人都沒聽説過——亞歷山大·王(Alexandr Wang)。

這位在硅谷被稱為「下一個扎克伯格」的天才少年,在2022年藉助着生成式AI的浪潮,成功登上《福布斯》全球億萬富豪榜,也憑此成爲了史上最年輕的白手起家的億萬富豪。

儘管在一年后其創立的公司Scale AI因估值大幅下滑,他的名字也從富豪榜上消失。

但在今年5月,隨着Scale AI宣佈獲得10億美元融資,估值138億美元(約為人民幣1000億元),亞歷山大·王也再一次回到大眾的視野當中。

從2016年創立到成為千億估值的獨角獸企業,亞歷山大·王和Scale AI用了短短8年的時間,而憑藉着Scale AI,亞歷山大不僅在AI數據標註行業上演了一段傳奇創業故事,也在全球AI熱潮中扮演了一個「賣鏟人」的角色,為馬斯克、奧特曼、扎克伯格等一眾科技大佬提供數據支持,某種程度上來説,他影響了整個AI世界的格局。

01「賣鏟子」的天才少年

如果用一句話總結亞歷山大·王的創業故事,那一定是一出場就手握爽文大男主劇本。

1997年,亞歷山大出生於美國的新墨西哥州,其父母都是物理學家,在新墨西哥州洛斯·阿拉莫斯國家實驗室工作。

關於亞歷山大這個名字的由來,還有一個藴含中國文化的故事:

Alexandr(亞歷山大)是其名字的英文拼寫,但比通用拼法少了一個e。在中國傳統中,數字「8」承載着許多美好寓意,所以他的父母就想讓他的名字剛好為8個字母。

受到家庭氛圍的薰陶,亞歷山大從小就是「別人家的孩子」:

小學時,亞歷山大便展露出數學天才的一面,到了初中,亞歷山大就讀於頂尖私立名校洛斯·阿拉莫斯,數次在美國數學人才選拔賽中拿下銅牌、金牌等;

上了高中后,亞歷山大又自學了編程技術,成為美國計算機、物理、數學奧林匹克競賽上的常客,成績均名列前茅;

此外,他9歲時學過小提琴,還精通中文、英語、法語等多種語言,可以説是「文理兩開花」。

除了學有所成,在高中時,亞歷山大就收到了多家硅谷科技公司的工作邀請,他先是去了硅谷最熱門的財富投資大數據管理平臺Addepar,之后又加入了「海外版知乎」Quora從事編碼工作並擔任技術主管。

也就是在Quora,亞歷山大結識了同爲華裔的女孩Lucy Guo,后者也將成為Scale AI的聯合創始人。

2015年,憑藉優異的成績,亞歷山大考入麻省理工學院(MIT),主要攻讀數學和計算機專業。根據領英(Linkedln)的個人資料顯示,亞歷山大在MIT求學期間GPA為5.0(滿分),且其選修的還是研究生級別的計算機科學課程。

也正是在其上大一期間,DeepMind推出的AlphaGo,戰勝了圍棋世界冠軍,開啟了人工智能的元年和深度學習的熱潮。

「我記得當時我在大學里,嘗試使用神經網絡,嘗試訓練圖像識別神經網絡。我很快意識到,這些模型在很大程度上只是數據的產物。」

亞歷山大在后面一次採訪中曾回憶起上大學時的思考,「這些模型或AI總體上是由三個基本支柱構成——算法、計算能力和數據。」

在當時,已經有公司在研究算法,比如OpenAI或Google的實驗室,或者其他一些AI研究機構;至於算力,英偉達也已展示出了為這些AI系統提供算力的領導者潛力。

唯獨沒有公司專注於數據,亞歷山大意識到隨着人工智能技術的長期發展,數據只會變得越來越重要。

於是在麻省理工大一剛結束后的暑假,亞歷山大決定從MIT輟學,與此同時Lucy Guo也從卡內基梅隆大學輟學,兩人一同創辦了Scale AI。

當時很多人為這兩位天才的中途輟學感到惋惜,認為這就是一場豪賭,但亞歷山大的看法卻不一樣:「如果現在不願意邁出這一步,那什麼時候會願意呢?」

這里還有個流傳的小插曲:

在大一結束后暑假的某一天,亞歷山大跟爸媽説,我暑假搞了個項目玩。

爸媽問到,啥項目啊,送檸檬水還是送外賣?

亞歷山大回答道,差不多吧,搞了個AI公司,還有個叫Sam Altman的給我投了點錢,對了,airbnb(愛彼迎)也是他們投的,現在估值也就300多億美金吧。

除了拿到Y Combinator(山姆·奧特曼時任總裁)的天使輪投資,在創立第一年,Scale AI還拿到了風投巨頭Accel的A輪融資。兩方資助下,Scale AI初期的資金障礙被掃清。

在成立之初,亞歷山大對Scale AI的設想是打造一個一站式服務中心,解決AI生態系統中的數據支柱問題。

因此,Scale AI早期的定位就是通過結合自動化技術與人力審覈,創建一個高效、精確的數據標註平臺,為創建機器學習算法的公司快速處理和標註大規模的數據集。

所謂的數據標註,是指為圖像、文本、視頻或音頻等原始數據添加結構化信息,以便機器學習模型能夠理解和學習這些數據的過程。

通俗來講,就是給你一段視頻或圖片,讓你分門別類地標出里面的行人、車輛、建築等元素,某種程度上,這是個小學生也能做的事。

雖然原理很簡單,但這些經過標註的數據對於人工智能的發展不可或缺。AI模型需要大量的標註數據來進行學習,才能具備識別、分類和預測等功能。

這里值得一提的是,儘管一些自動化工具可以加快部分標註過程,但爲了得到高質量、高精確度的標註數據,仍然需要大量的人工來處理、標記和驗證數據,尤其是在一些如醫療、自動駕駛、軍事等對高精度有要求的領域。

事實上,在Scale AI崛起之前,數據標註行業在AI領域長期處於「邊緣」位置,其對大量人工的需求使得外界打上了勞動密集型產業的標籤。

在大多數人看來,數據標註行業既不「AI」,也一點都不「性感」。

但就是這樣一個「低門檻」的「辛苦活」,被亞歷山大在8年時間里干出了一家估值千億的AI獨角獸;在2023年《時代周刊》發佈AI領域最具影響力的100個人物中,亞歷山大與李飛飛、黃仁勛、李彥宏等人共同入選榜單,其本人更是其中最年輕的人之一。

而在這背后,亞歷山大又是帶領Scale AI怎麼做到的?

02從0到估值千億,8年時間Scale AI做對了什麼?

儘管數據標註看起來是一個低門檻、勞動密集型的行業,但在2016年的節點,它卻是一個為數不多的空白市場。

除了谷歌、亞馬遜等少數大廠因業務需求設立了自己的數據標註部門外,大多數公司不願意也沒有精力去自己管理,這導致標註數據的獲取的過程耗時且昂貴。

而這也正是Scale AI「賣好鏟子」飛速發展的機會所在,並且再回顧Scale AI八年的發展歷程,其成功也可以説是天時、地利,加人和的一個結果:

1.天時

在創立Scale AI后,8年時間里亞歷山大帶領整個團隊抓住了人工智能行業發展的幾次大風口。

先是自動駕駛領域。

2016年是AI時代的元年,也同樣是自動駕駛周期的起點,在那一年Cruise被通用以超10億美元的價格收購。

關注到這一消息后,亞歷山大意識到自動駕駛行業對於數據標註將產生大規模的剛性需求——自動駕駛技術的發展依賴於大量高精度的標註數據,比如道路場景、行人和其他物體的圖像數據,車企需要成千上萬小時的視頻數據進行標註來訓練和驗證其算法。

「我們構建了第一個支持傳感器融合數據的數據引擎,支持2D數據和3D數據的組合,即激光雷達加攝像頭,這些設備安裝在車輛上,這很快成為整個行業的標準。」

通過建立高效的數據標註平臺,以及使用模型輔助標註和數據預處理來加速了數據處理流程,使得標註成本和時間得到大幅度降低,很快Scale AI就吸引了通用汽車、豐田和Waymo等車企的合作。

亞歷山大和Scale AI也憑此在自動駕駛數據標註領域站穩腳跟。

而在2019~2020年期間,這個階段自動駕駛行業技術方面已基本成熟,加上當時語言模型和生成式AI還未誕生,人工智能領域處於一個高度不確定時期。

於是,亞歷山大和Scale AI開始專注於政府應用,「這是一個顯然具有高度適用性的領域,並且在全球範圍內變得越來越重要。」

也正是在進軍新市場的過程中,Scale AI從過去單純的數據標記延伸到數據服務,提供從數據標記和管理、模型訓練和評估,再到AI 應用開發和部署的全流程解決方案。

在之后幾年時間里,Scale AI在數據領域迅速崛起,客户也擴展到了醫療、國防、電商、政府服務等領域。

另外,爲了應對某些行業數據不足的挑戰,Scale AI還向下游延伸到合成數據的生成,通過從現有數據中創建新的數據集,幫助訓練模型。

與此同時,Scale AI在這一階段也開始致力於生成AI,與OpenAI開展合作,在GPT-2上進行RLHF的首次實驗。

「當時的模型非常粗糙,真的看起來不怎麼樣。但我們認為OpenAI是一羣聰明的人,我們應該與他們合作。所以我們與發明RLHF的團隊合作,並從2019年開始不斷創新。」

2022年,ChatGPT的問世震驚世界,生成式AI領域迎來了大爆發——生成式AI模型需要海量的訓練數據來提升其生成內容的準確性和多樣性,加上大語言模型的爆發式增長極大推動了整個行業對高質量標註數據的需求。

而靠着和OpenAI的合作,在生成式AI賽道Scale AI已搶佔先機,到了今天Scale AI更是成爲了通用AI的數據鑄造廠,為OpenAI、Meta、Microsoft等行業內幾乎所有主要的大型語言模型提供支持。

2.地利

除了抓住這些行業風口到來的時機,亞歷山大還藉助着全球化這一地利優勢,實現了在數據標註行業里的成本最小化。

因為美國人力成本高昂,在LinkedIn、indeed等平臺上,數據標註的兼職時薪大多都在30-200美元之間,但作為一個勞動密集型業務,這在客觀上就要求企業去思考解決數據生產問題,或者採購相關服務。

於是在2017年,Scale AI 成立了 Remotasks 作為其內部外包機構,在肯尼亞、菲律賓、委內瑞拉等地設立了幾十家機構,在世界各地培訓了成千上萬的數據標註員,這些標註員的工作大部分都是按件計酬,一次標註的收入低至幾美分,很多合約工的時薪甚至不到1美元。

曾有業內人士指出,「Scale AI不是一家人工智能初創企業,它只是一家提供廉價勞動力的公司」。

但不管外界如何質疑,無法否認的是,在這樣的「全球工廠」模式下,Scale AI的毛利率長期保持在65%以上,Scale AI也成爲了當下AI領域為數不多不需要燒錢,而是狂賺錢的AI初創企業之一。

2023年,Scale AI年化收入高達7.5億美元(約合54.3億元人民幣),預計2024年底將達到14億美元(約合101億元人民幣)。

3.人和

除了營收快速增長,創業8年時間,亞歷山大和Scale AI的背后還集結了一支豪華的投資人隊伍。不僅有着大半個硅谷圈大佬,也出現了亞馬遜、英偉達、英特爾、Meta等超級大廠。

在前文我們提到,Scale AI剛創立時,就分別獲得硅谷著名孵化器Y Combinator和風投巨頭Accel的支持,前者的時任總裁山姆·奧特曼在后面的OpenAI又與Scale AI 開展了合作,而后者機構的合夥人還曾將家里的地下室借給Scale AI臨時辦公。

而此后5、6年時間里,Scale AI也基本是一兩年就融一次資,而參與投資的機構和個人在這個過程中顯然也不止是進行資金上的幫助,更是在多方面都進行了助力。

2024年5月,Scale AI再次官宣完成F輪融資,融資額10億美元,估值增長超過80%至約138億美元(約1000億人民幣),投資方陣容堪稱史詩級豪華,20多家機構和個人:

老股東Accel領投,Index Ventures、Founders Fund、Coatue、Thrive Capital、Spark Capital、老虎基金、Greenoaks、Y Combinator、Wellington Management和GitHub 前首席執行官 Nat Friedman繼續加碼,同時英偉達、Elad Gil、亞馬遜、Meta、思科、英特爾、AMD、DFJ Growth、WCM、ServiceNow Ventures也參與了此次融資。

時來天地皆同力。毫無疑問,作為這一波AI浪潮中的「閃耀羣星」里的一顆,亞歷山大和Scale AI註定要留下濃墨重彩的一筆。

也正如亞歷山大在完成F輪融資后在採訪中講到的:「Scale AI為當今市場上幾乎所有領先的 AI 模型提供數據支持。藉助此次融資,公司將進入旅程的下一階段——加速豐富前沿數據,為通用人工智能鋪平道路。」

而解決人工智能的數據問題將是他一生為之奮鬥的事業。

03中國為什麼沒有Scale AI的誕生?

事實上,看完Scale AI的發展故事,大多數人可能會產生的一個疑問是,為什麼中國沒有類似於Scale AI這樣的企業誕生?

尤其是在生成式AI熱潮前,國內的人工智能行業在應用方面一度領先,並且數據標註作為勞動密集性企業,中國天然就有優勢。所以為什麼呢?

總體來看,這背后有幾方面的原因:

1.「資源陷阱」

這里先引入一個「資源陷阱(詛咒)」的概念,什麼是資源陷阱,就是指一個國家或地區擁有豐富的自然資源,但因為過度依賴這些資源,忽視了其他潛在的經濟增長領域,如製造業、服務業和技術創新等,導致經濟發展單一、結構不合理,同時隨着這種自然資源枯竭或市場需求下降,經濟可能會遭受嚴重打擊。

典型的例子便是委內瑞拉、俄羅斯,它們依靠石油、天然氣等賺取大量的外匯,但除了能源行業外,其它的經濟產業都非常落后,這種國家也被稱為「資源詛咒型國家」。

一定程度上,在AI數據標註行業,國內也陷入了這種資源豐富的「詛咒」。

事實上,國內的數據標註業務也很早就起步發展了,但並沒有形成規模。很多龍頭企業雖然成立了數據標註部門,但主要是為自身業務服務,而並不是尋求將數據與各個行業進行資源匹配;

加上依靠國內的人口紅利,讓標註后的數據獲取成本變得十分低廉,哪怕是今天國內的數據標註價格依舊偏低,拿重慶這種新一線城市來説也僅為4~6k/月。

在這種情況下采用技術平臺或者進一步研發來提高數據標註或是從標註行業進一步向上延展創新,對於處在市場競爭中的企業而言,可能反而是得不償失的做法。

但一旦在這個階段錯過了對數據標註行業的技術創新或沉澱,也許就永遠地錯失了創新升級的機會了。

2.生態不足

這里的生態不足體現在兩個方面,一是單純從語言生態來講,必須要承認,英文的使用範圍是全球,而中文的使用範圍更多還是在國內以及海外的部分華人。

所以在數據標註這一產業上,Scale AI天然就有了優勢,站在資本的高地,在全球範圍內尋找着價值窪地,而國內哪怕是有人口紅利,這成本優勢終究更高,且在資本(投融資)方面也沒有佔據高地。

另外,需要提到的是在數年前,隨着移動互聯網格局的成熟,國內互聯網生態在當時也進一步走向了對抗封閉,而這也使得數據在流通上出現了阻礙,甚至可以説當時的數據標註行業也被迫參與到這種對抗封閉的生態中去,各為其主、各自而戰,無法形成有效的、規模性的創新力量。

3.視野侷限

對於數據標註行業,站在當時那個節點,只有少數人能因為相信而看見。

在國外,也只有亞歷山大等寥寥幾人,在國內這樣的人顯然就更少了。

事實上,大多數參與到數據標註行業中的人,更多就是秉持着過往的勞動密集型產業的邏輯,靠着「內卷」來實現生存以及盈利的。

但是亞歷山大不同的是,儘管行業邏輯是勞動密集型的特點,但對於他而言,這只是最基礎的一點,是作為構建起整個數據行業上下游生態的一個跳板。正如其在最近的訪談中談到,人們已經用盡了互聯網上的所有數據,想要開發出比GPT-4.5更強大的人工智能,則必須構建前沿數據。

所謂的「前沿數據」是指那些與應用場景密切相關、能及時反映最新趨勢和變化的數據,往往包含大量長尾或少見的場景,有助於提升AI在非典型情況下的表現,推動人工智能能力的邊界向複雜推理、多模態等方向發展。

隨着AI的快速進化,未來的數據訓練需要更多地與特定任務、特定應用場景相匹配,因此也需要挖掘和生產出更多新的、差異化的數據,而這可能也正是亞歷山大在2016年時就看到的未來。

從這個角度來看,Scale AI作為一面鏡子,其從最「廉價」的行業中成長為一個估值千億的AI獨角獸企業有太多可以學習的地方了。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。