最近在库拉KULAAI(k.kulaai.cn) 上对比数据标注相关的AI工具时,发现一个变化特别明显:一年前还在招大量标注员的公司,现在很多岗位已经悄悄撤了。取而代之的是一行行自动跑的模型预标注脚本。
这个变化不是缓慢发生的,是过去一年里突然加速的。
先说清楚数据标注在干什么
数据标注本质上就是给原始数据打标签。一张图片里有猫有狗,标注员框出来告诉模型"这是猫""这是狗"。一段文本是正面评价还是负面评价,打个标签。一段语音里说话的人是谁,标上名字。
听起来简单,但这是AI训练的基建——没有标注数据,模型就学不会任何东西。
过去几年,数据标注是一个巨大的劳动力密集型产业。全球有上百万的标注员在干这个活儿,国内也有不少专门做标注外包的公司。门槛低、需求大、按件计费,某种意义上就是AI产业链里的"富士康"。
但现在,这条流水线正在被大模型自己接管。
80%的活儿怎么被吃掉的
最直接的变化是模型预标注。以前一条数据全靠人从头标,现在大部分公司都是模型先跑一遍,人只负责检查和纠错。
举个具体的例子。做文本分类,以前标注员需要读完每一条文本,判断属于哪个类别,手动选标签。现在用大模型先批量分类,准确率能到85%到90%,人只需要看模型拿不准的那10%到15%。
图片标注也是。以前框目标物体全靠人画框,现在用SAM(Segment Anything Model)这类工具,模型自动分割,人只需要微调边界。一张原来标五分钟的图,现在一分钟能搞定。
语音领域更不用说了。语音转文字以前靠人听写,现在自动语音识别的准确率已经很高了,人只需要改个别错字。
把这些环节加在一起,原来需要一百个人干的活儿,现在二十个人就能兜住。80%不是夸张,是很多公司实际的人力缩减比例。
那剩下20%在干什么
这是关键问题。被模型替代的是简单、重复、标准化的标注任务。留下来的20%,恰恰是模型做不好的部分。
第一块是复杂场景的判断。比如医疗影像标注,一个CT切片上肿瘤的边界在哪里、跟周围组织怎么分,这种判断需要临床经验,模型能给初步建议,但最终决策得靠有医学背景的人。一个标了三年CT图的标注员,他的判断力不是模型在现有数据量下能替代的。
第二块是标注规范的制定。模型能执行规则,但规则本身是人定的。什么情况下算"遮挡"、什么程度的模糊算"无法识别"、边界case怎么处理——这些东西需要人来定义,而且每个项目都不一样。制定规范的那个人,他的经验值钱得多。
第三块是质量审核和兜底。模型标错的那些case往往是最难的、最模糊的、最有争议的。把这部分丢给模型自己判断,出来的结果会越来越离谱。必须有人兜底,而且兜底的人水平不能低。
第四块是特殊领域和小语种。大模型的训练数据分布不均匀,英语和中文的标注能力很强,但碰到小语种、方言、行业术语,模型就开始犯糊涂。这些领域的标注人力不仅没被替代,反而因为整体市场缩减而变得更稀缺了。
这行还能不能干
老实说,纯做简单标注的路已经走不通了。按件计费、不需要专业背景的那种标注工作,价格已经被压到很低了,而且还在继续往下走。
但往上走的空间其实打开了。
现在行业里最缺的不是标注员,是能做复杂标注的领域专家。医学、法律、自动驾驶、工业检测——这些领域需要懂行的人来标注数据,而这类人的供给远远不够。一个有三年医学影像标注经验的人,现在的薪资比两年前涨了不少。
另一个方向是转向数据工程。标注只是数据处理的一个环节,数据清洗、数据增强、数据质量评估、训练集构造——这些上下游的工作更偏工程化,门槛更高,也不容易被模型替代。从标注员转数据工程师,是一条可行的路径。
说到底
大模型对数据标注行业的冲击是真实的,而且已经发生了。80%的简单标注工作被吃掉,这个比例在接下来两年可能还会往上涨。
但这件事也有另一面:模型越强,对高质量标注数据的需求越大。模型能自己标80%的垃圾数据,剩下那20%的高质量数据反而变得更值钱了。标注行业不会消失,但它会从劳动密集型变成知识密集型。
对于还在这个行业里的人来说,现在的选择很明确——要么往上走,成为模型替代不了的那20%;要么等着被挤出去。
残酷吗?挺残酷的。但这就是技术迭代的常态。