熱門資訊> 正文
2025-07-25 08:20
6月12日,數據標註獨角獸企業Scale AI正式宣佈一項來自Meta公司的143億美元戰略投資。此項投資使Scale AI的估值飆升至290億美元,Meta將獲得該公司49%的非投票權股份。一方面,這次戰略投資讓人們重新審視了數據作為基石對於AI行業的重要作用;另一方面,這一事件也為我們提供了觀察全球數據標註產業發展的窗口,Scale AI的成功經驗,恰好能為國內數據標註企業突破同質化競爭、實現價值躍遷提供關鍵鏡鑑。
Scale AI獲Meta注資的關鍵原因
Llama 4市場反饋慘淡,資本手段可為Meta快速組建有競爭力的人才團隊,夯實AI發展基礎。4月5日,Meta新一代開源大模型Llama 4發佈,隨后用户實測暴露代碼能力缺陷,如在STEM基準測試中,Llama 4的Maverick版本得分是49,僅為DeepSeek-V3的74%,且在多步邏輯推理中頻繁中斷。7月1日,創始人扎克伯格宣佈成立Meta超級智能實驗室,致力於開發Llama開源系列大模型、相關產品和基礎AI研究項目等。該實驗室核心成員包括蘋果公司基礎模型團隊負責人龐若鳴、Scale AI CEO亞歷山大·王等AI產業鏈重點企業核心人才。
收購數據標註企業對提升數據質量、推動AI創新發展有重要支撐作用。一方面,數據標註企業建設並公開自動駕駛、醫療等重點行業高質量數據集,可滿足AI訓練需求。如2020年以來,Scale AI發佈適用於冰雪不良路況的CADC、適用於城市環境複雜路況的Pandaset等多個自動駕駛數據集,有效推動了通用、豐田等汽車企業自動駕駛發展。另一方面,數據標註企業創新數據生成模式,可持續提升AI大模型能力。如Scale AI在2022年採用人機混合生成合成數據,為AI視頻製作企業Kaleido AI創建1.5萬張合成圖像,使其視覺模型預測的目標識別準確度提升超20%。
數據標註獨角獸企業的發展經驗
將大量政企客户和高價值場景作為基本盤。2016年美國發布全球首個自動駕駛汽車政策文件《聯邦自動駕駛汽車政策》,促進了自動駕駛項目在美國全面展開;同年Scale AI成立,與Cruise、Lyft等多家自動駕駛企業合作,成立兩年內自動駕駛數據標註量就超過20萬英里。2020年以來,美國陸續出臺系列政策,推動聯邦政府內部使用AI,美國國防部在2017年—2024年間就投資了近658個AI項目。Scale AI也逐步將業務重點轉向國防及政府AI領域,2020年以來僅美國國防部項目便累計為其帶來了超3億美元的收入。
打造覆蓋數據到全棧模型到應用的業務能力。Scale AI推出的Document AI、Synthetic等產品,提供文檔識別、數據合成等能力;推出Data Engine、Custom LLMS等平臺,分別滿足客户對於數據標註、模型微調等多層次多樣化需求。比如,2023年5月,Scale AI為美國政府部門開發用於決策制定的Donovan平臺,不僅包括任務命令、態勢報告等超10萬頁實戰數據採集標註,還基於RLHF不斷優化模型性能,幫助作戰人員和決策者加速對戰場態勢的理解,使任務規劃時間從幾小時縮短到幾分鍾。
始終錨定技術突破以推動效率提升。Scale AI較早引入機器學習技術等自動化工具輔助人工標註,以此吸引了OpenAI、豐田汽車等數百家客户,每周可完成數千萬個數據點的標註,並將豐田項目的標註效率提高10倍。針對跨模態標註的難題,Scale AI通過創新Data Engine等平臺工具,協同處理和分析圖像、聲音、傳感器等數據,幫助機器學習算法全面理解複雜環境,進一步形成競爭優勢。
利用靈活的眾包平臺模式調動全球智力資源。Scale AI基於Remotasks和Outlier兩個眾包平臺構建全球化的多層次靈活用工平臺。Remotasks匯聚超過70個國家的24萬勞動力,以全球化低成本勞動力滿足成熟場景的海量標註需求;Outlier則招募數學、法律等30多個專業的高學歷人才,滿足創新場景數據標註、模型評估等服務需求,官網顯示,目前已有4萬名人員入駐,入駐的美國人員中擁有學士、碩士、博士學位的佔比分別為79%、22%、8%。
建立「需求⇌人才」的動態匹配機制,強化數據服務的深度和專業性。Scale AI推出Expert Match產品,允許研究機構和客户企業搜索、選擇Scale AI人才網絡中不同受教育程度、語言及專業領域的專家,將領域專家能力嵌入數據生成、模型評估和測試、構建AI應用等多個環節。
構建「數據質量⇌模型訓練」反饋正循環,加速模型迭代和數據價值轉化。Scale AI推出的Document Al,通過結合「數據標註—模型訓練及輸出—人類專家反饋」數據閉環,在與國際貨運代理公司Flexport的合作中,將海關報關的單份文檔處理時間從兩天多縮短到60秒以內。
我國數據標註企業發展啟示
聚焦高價值應用場景,健全AI數據全流程服務。一是優先聚焦低空經濟、具身智能等未來高價值業務場景推出多套具備行業影響力的高質量數據集。二是推進面向用户的一站式AI開發平臺建設,幫助客户快速實現從數據資源到模型應用的端到端AI生產。
加快創新數據標註技術,打造高水平用人平臺。一是加快跨模態語義對齊、4D標註等前沿技術探索,豐富自研標註工具,提升數據服務效率。二是建設靈活的用人平臺,吸納多樣人才靈活入駐,實現對不同服務需求的快速響應。
搭建人才對接機制,構建協同創新生態。一是探索建立全流程服務需求和人才的動態匹配機制,提升數據服務效率和質量。二是暢通數據採集、標註、應用產業鏈,深化協同創新,共建數據價值創造閉環。(作者單位為中國電信研究院)