大模型下半场:谁在掘金数据标注?
来源:36kr 8 小时前

两个月前,Meta豪掷约150亿美元(约合人民币1078亿元)入股Scale AI,一举拿下49%股份。交易完成后,Scale估值被推高至290亿美元。

作为硅谷AI赛道近几年最猛的黑马,Scale AI从成立到估值飙升至138亿美元,仅用了5年时间,几乎创造了一个行业的神话。

这家公司的主业,是数据标注。低成本的员工门槛和海量的人工参与,这个看似枯燥且“苦力活”的领域,长期以来被视为是AI产业链里最不性感、最缺乏想象力的一环。

然而,正是凭借这门“脏活累活”,Scale在大模型时代迅速完成了从幕后到台前的跃迁,成为硅谷最炙手可热的明星公司。Meta的出手,则进一步将数据标注这个原本处于产业底层的环节,推向了聚光灯下。

更耐人寻味的是,这场收购并不仅仅是资本层面的“下注”。

作为交易的一部分,Scale创始人兼CEO汪滔将卸任,带领部分核心员工加入Meta,组建所谓的「超级智能小组」,同时保留Scale董事会席位。换句话说,Meta买的不只是数据,更是汪滔本人的战略眼光和执行能力。

这场来势汹汹的收购背后,折射出的是Meta的数据焦虑。

2024年,Meta推出的Llama4Behemoth,曾因训练数据质量问题饱受诟病,原因在于Llama4Behemoth约30%的语料源自低质量社交媒体内容,导致模型在多模态理解、长文本推理等核心指标上,仍落后GPT-4.5约12%。对Meta而言,缺乏高质量数据成为了限制其模型追赶的最大短板。

某种程度上,在AI模型训练对数据依赖日益加深的当下,数据标注作为模型训练的第一道防线,其战略地位正在被重新估值。

01

从苦力活到智能化

数据标注进化之路

什么是数据标注?

一句话概括,就是给原始数据打上标签,把“人类能理解的信息”转化为“AI能识别的训练样本”。比如在自动驾驶场景中,采集车上传的只是道路影像,但AI无法直接看懂。只有当人类标注员把车道线、路牌、行人等元素逐一框选、标记,这些影像才真正具备训练价值。

在这个行业里,大致存在三类玩家:

第一类是纯人力型公司。依靠大量低成本劳动力完成标注,适合做图像分类、语音转写等标准化任务。技术门槛不高,客户往往需要自带工具和平台,符合大众对“数据标注就是体力活”的固有印象。

第二类是互联网大厂的众包平台。典型代表如京东众智、百度众测,主要用于满足公司自身业务场景需求,再通过众包机制把任务拆解、分发给外部劳动力池。

第三类则是智能型服务商。这类公司具备自主研发平台和算法能力,能提供自动化标注工具、质量控制体系以及高度定制化的解决方案,尤其擅长3D点云、多模态等复杂任务,往往在效率和准确性上显著领先同行。

长期以来,前两类公司本质上都是“人力堆砌型”企业,规模和利润空间有限,天花板非常明显。尤其是第一类,更多时候只是第三类智能公司的外包池子。事实上,今天大多数头部智能型企业,几乎都是从这种人力公司一步步进化而来。

以行业龙头Scale AI为例,它的前身其实叫“ScaleAPI”。最初,它并不是一家数据平台公司,而是提供一个“人力API”:开发者只需写一行代码,就能调度一支远程劳动力团队,帮忙完成内容审核、数据提取、预约安排等琐碎任务。

这种以人工驱动的轻量模式,既帮Scale拿下了丰田、本田等早期大客户,也积累了大量高价值数据。

有了基础数据的积累,再加上AI能力的升级,自2018年起,Scale就开始逐步用模型替代掉部分重复性、套路化的人力工作,构建起一套“机器预标注+人工复核”的混合工作流。先由算法完成预标注,再由人工专家审核和修正。

这种AI代替的模式,为公司的效率和质量带来了双重提升。根据OpenAI的测算,ChatGPT的平均标注成本低于0.003美元,比传统众包平台便宜20倍。而在准确率上,GPT-4完成的标注结果可达到88.4%,甚至超过了人类标注员的86.2%。

02

全球数据标注版图:

美国为何能占四成?

根据DMR(DimensionMarketResearch)在2024年7月发布的预测报告,全球数据标注行业市场规模约为20亿美元,其中美国市场规模为8.38亿美元,占据约40%的份额。这也是目前能查到的最新数据。

为什么美国能长期占据全球数据标注的主导地位?

一方面,数据标注本质上是人力密集型产业。标注员的工作门槛低、流动性大,导致人力几乎成为成本控制的核心竞争力。

为了减轻组织压力,企业通常会选择外包或众包的方式来派发项目。在这一点上,美国公司凭借全球化分工的优势,将基础标注任务外包给低成本国家,实现了极致的成本压缩。

典型的例子,Scale AI通过旗下众包平台Remotasks,它将最基础的框选标注任务分发给菲律宾、肯尼亚等低成本地区。除官网披露的900名正式员工外,其平台上注册工人超过24万人,遍布全球。

其次,在技术水平和自动化程度上,国内外厂商存在明显差距。目前国内最大的标注公司云测数据,早在2021年就尝试引入自动标注功能,但应用范围仍主要集中在智能驾驶领域;另一家专注语音的海天瑞声,也在研发自动语音切割等工具,但整体智能化水平有限,仍高度依赖人工。

相比之下,Scale AI在2018年就布局自动化标注,虽然同样是自动驾驶起家,但业务已经扩展到语言、金融、医疗甚至军事等领域。

更重要的是,Scale AI不只是一家单纯的数据标注商公司,此次 Meta重金挖走的汪滔,被称为华裔“天才少年”,19岁那年从美国麻省理工学院辍学,创立Scale AI,在最近的一段采访中,他提到,不仅是数据标注,在招聘流程、质控流程、数据分析、销售报告等环节,Scale AI都已经实现了自动化管理。

某种程度上来说,作为一个因大模型训练需求而诞生的行业,国内企业布局的短板,很大程度上是由市场需求的缺失所决定的。

数据标注最大的两个服务场景分别是大模型和自动驾驶,而这两个产业的绝对主力军大多分布美国。出于数据天然涉及隐私和安全考量,企业更倾向于选择本国标注商合作。

正因此,美国既孕育出了Scale这样的全能型选手,还有surgeAI、Turing这样面向微调服务,以及Lionbridge这样面向文本、语音的数据公司。

相比之下,国内由于本身劳动力较为密集,互联网大厂通常会采用众包模式而非专门标注公司,且在部分模型采用蒸馏的前提下,国内市场需求要远少于国外。

03

大模型下半场,

数据标注地位正在反转

随着AI技术的快速迭代,业界曾一度流传一种观点:AI标注与合成数据将彻底取代人工标注。但就目前的技术现实而言,这种可能性依然遥远。

AI标注的前提,是数据结构和规则高度明确,并且有充足的历史样本支撑。因此,它的应用范围天然受限,目前仍只能覆盖交通图像、人脸识别等较为标准化的任务。

在工作流上,AI主要替代的是标注的中游环节,而规则制定、质量把关等关键节点,仍然需要人工介入。

与此同时,随着大模型逐渐强调垂直化场景,训练重心也从预训练转向了强化学习。不同于预训练对数据质量要求相对宽松,强化学习更依赖高精细度和专业化数据,常常涉及医疗影像、法律文本、情感语言等高门槛领域。

这种变化使得标注员的角色愈发复杂。

他们不仅要具备专业知识,还需要抽象思维与跨学科能力。正如一位业内人士所说,如今的任务往往牵涉推理链条、多模态对齐等新场景,“早已不是简单的框选和分类能够解决的”。

Surge AI就是这一趋势的典型代表。该公司自2020年创立起,就将核心放在高质量数据的生成上,例如为编程模型提供优质代码数据,以提升模型性能。凭借这种定位,SurgeAI在2024年的营收已达到10亿美元,甚至超越了行业老大Scale AI的8.7亿美元。

另一条被寄予厚望的替代路径是合成数据。理论上,它能够在数据不足时填补空缺,但现实问题不容忽视:合成数据毕竟是在既有条件下生成的,当现实场景发生变化,它难以保持有效性;同时,数据安全风险也限制了其大规模泛化的可能。

从这个角度来看,数据标注并不会消失,而是会向更高质量、更强专业化方向演进。

回顾过去,数据标注长期被视为“三驾马车”里最弱的一环:算法有OpenAI,算力有英伟达,而在数据标注领域,即便是行业龙头Scale AI,其市值也不到OpenAI的十分之一。

究其原因,很大程度上源于行业门槛低、收入上限有限。但当AI模型训练进入下半场,数据标注的技术壁垒被不断拔高,Meta对Scale AI的收购,只是一个开始,在不远的将来,数据资源正在被推向产业竞争的核心。