简体
  • 简体中文
  • 繁体中文

热门资讯> 正文

数据标注独角兽企业因何备受青睐?

2025-07-25 08:20

  6月12日,数据标注独角兽企业Scale AI正式宣布一项来自Meta公司的143亿美元战略投资。此项投资使Scale AI的估值飙升至290亿美元,Meta将获得该公司49%的非投票权股份。一方面,这次战略投资让人们重新审视了数据作为基石对于AI行业的重要作用;另一方面,这一事件也为我们提供了观察全球数据标注产业发展的窗口,Scale AI的成功经验,恰好能为国内数据标注企业突破同质化竞争、实现价值跃迁提供关键镜鉴。

  Scale AI获Meta注资的关键原因

  Llama 4市场反馈惨淡,资本手段可为Meta快速组建有竞争力的人才团队,夯实AI发展基础。4月5日,Meta新一代开源大模型Llama 4发布,随后用户实测暴露代码能力缺陷,如在STEM基准测试中,Llama 4的Maverick版本得分是49,仅为DeepSeek-V3的74%,且在多步逻辑推理中频繁中断。7月1日,创始人扎克伯格宣布成立Meta超级智能实验室,致力于开发Llama开源系列大模型、相关产品和基础AI研究项目等。该实验室核心成员包括苹果公司基础模型团队负责人庞若鸣、Scale AI CEO亚历山大·王等AI产业链重点企业核心人才。

  收购数据标注企业对提升数据质量、推动AI创新发展有重要支撑作用。一方面,数据标注企业建设并公开自动驾驶、医疗等重点行业高质量数据集,可满足AI训练需求。如2020年以来,Scale AI发布适用于冰雪不良路况的CADC、适用于城市环境复杂路况的Pandaset等多个自动驾驶数据集,有效推动了通用、丰田等汽车企业自动驾驶发展。另一方面,数据标注企业创新数据生成模式,可持续提升AI大模型能力。如Scale AI在2022年采用人机混合生成合成数据,为AI视频制作企业Kaleido AI创建1.5万张合成图像,使其视觉模型预测的目标识别准确度提升超20%。

  数据标注独角兽企业的发展经验

  将大量政企客户和高价值场景作为基本盘。2016年美国发布全球首个自动驾驶汽车政策文件《联邦自动驾驶汽车政策》,促进了自动驾驶项目在美国全面展开;同年Scale AI成立,与Cruise、Lyft等多家自动驾驶企业合作,成立两年内自动驾驶数据标注量就超过20万英里。2020年以来,美国陆续出台系列政策,推动联邦政府内部使用AI,美国国防部在2017年—2024年间就投资了近658个AI项目。Scale AI也逐步将业务重点转向国防及政府AI领域,2020年以来仅美国国防部项目便累计为其带来了超3亿美元的收入。

  打造覆盖数据到全栈模型到应用的业务能力。Scale AI推出的Document AI、Synthetic等产品,提供文档识别、数据合成等能力;推出Data Engine、Custom LLMS等平台,分别满足客户对于数据标注、模型微调等多层次多样化需求。比如,2023年5月,Scale AI为美国政府部门开发用于决策制定的Donovan平台,不仅包括任务命令、态势报告等超10万页实战数据采集标注,还基于RLHF不断优化模型性能,帮助作战人员和决策者加速对战场态势的理解,使任务规划时间从几小时缩短到几分钟。

  始终锚定技术突破以推动效率提升。Scale AI较早引入机器学习技术等自动化工具辅助人工标注,以此吸引了OpenAI、丰田汽车等数百家客户,每周可完成数千万个数据点的标注,并将丰田项目的标注效率提高10倍。针对跨模态标注的难题,Scale AI通过创新Data Engine等平台工具,协同处理和分析图像、声音、传感器等数据,帮助机器学习算法全面理解复杂环境,进一步形成竞争优势。

  利用灵活的众包平台模式调动全球智力资源。Scale AI基于Remotasks和Outlier两个众包平台构建全球化的多层次灵活用工平台。Remotasks汇聚超过70个国家的24万劳动力,以全球化低成本劳动力满足成熟场景的海量标注需求;Outlier则招募数学、法律等30多个专业的高学历人才,满足创新场景数据标注、模型评估等服务需求,官网显示,目前已有4万名人员入驻,入驻的美国人员中拥有学士、硕士、博士学位的占比分别为79%、22%、8%。

  建立“需求⇌人才”的动态匹配机制,强化数据服务的深度和专业性。Scale AI推出Expert Match产品,允许研究机构和客户企业搜索、选择Scale AI人才网络中不同受教育程度、语言及专业领域的专家,将领域专家能力嵌入数据生成、模型评估和测试、构建AI应用等多个环节。

  构建“数据质量⇌模型训练”反馈正循环,加速模型迭代和数据价值转化。Scale AI推出的Document Al,通过结合“数据标注—模型训练及输出—人类专家反馈”数据闭环,在与国际货运代理公司Flexport的合作中,将海关报关的单份文档处理时间从两天多缩短到60秒以内。

  我国数据标注企业发展启示

  聚焦高价值应用场景,健全AI数据全流程服务。一是优先聚焦低空经济、具身智能等未来高价值业务场景推出多套具备行业影响力的高质量数据集。二是推进面向用户的一站式AI开发平台建设,帮助客户快速实现从数据资源到模型应用的端到端AI生产。

  加快创新数据标注技术,打造高水平用人平台。一是加快跨模态语义对齐、4D标注等前沿技术探索,丰富自研标注工具,提升数据服务效率。二是建设灵活的用人平台,吸纳多样人才灵活入驻,实现对不同服务需求的快速响应。

  搭建人才对接机制,构建协同创新生态。一是探索建立全流程服务需求和人才的动态匹配机制,提升数据服务效率和质量。二是畅通数据采集、标注、应用产业链,深化协同创新,共建数据价值创造闭环。(作者单位为中国电信研究院)

风险及免责提示:以上内容仅代表作者的个人立场和观点,不代表华盛的任何立场,华盛亦无法证实上述内容的真实性、准确性和原创性。投资者在做出任何投资决定前,应结合自身情况,考虑投资产品的风险。必要时,请咨询专业投资顾问的意见。华盛不提供任何投资建议,对此亦不做任何承诺和保证。