大模型干掉了80%的数据标注工作，剩下20%才是真正的活儿最近在库拉KULAAI（k.kulaai.cn）上对比数据标

最近在库拉KULAAI（k.kulaai.cn） 上对比数据标注相关的AI工具时，发现一个变化特别明显：一年前还在招大量标注员的公司，现在很多岗位已经悄悄撤了。取而代之的是一行行自动跑的模型预标注脚本。

这个变化不是缓慢发生的，是过去一年里突然加速的。

先说清楚数据标注在干什么

数据标注本质上就是给原始数据打标签。一张图片里有猫有狗，标注员框出来告诉模型"这是猫""这是狗"。一段文本是正面评价还是负面评价，打个标签。一段语音里说话的人是谁，标上名字。

听起来简单，但这是AI训练的基建——没有标注数据，模型就学不会任何东西。

过去几年，数据标注是一个巨大的劳动力密集型产业。全球有上百万的标注员在干这个活儿，国内也有不少专门做标注外包的公司。门槛低、需求大、按件计费，某种意义上就是AI产业链里的"富士康"。

但现在，这条流水线正在被大模型自己接管。

最直接的变化是模型预标注。以前一条数据全靠人从头标，现在大部分公司都是模型先跑一遍，人只负责检查和纠错。

举个具体的例子。做文本分类，以前标注员需要读完每一条文本，判断属于哪个类别，手动选标签。现在用大模型先批量分类，准确率能到85%到90%，人只需要看模型拿不准的那10%到15%。

图片标注也是。以前框目标物体全靠人画框，现在用SAM（Segment Anything Model）这类工具，模型自动分割，人只需要微调边界。一张原来标五分钟的图，现在一分钟能搞定。

语音领域更不用说了。语音转文字以前靠人听写，现在自动语音识别的准确率已经很高了，人只需要改个别错字。

把这些环节加在一起，原来需要一百个人干的活儿，现在二十个人就能兜住。80%不是夸张，是很多公司实际的人力缩减比例。

这是关键问题。被模型替代的是简单、重复、标准化的标注任务。留下来的20%，恰恰是模型做不好的部分。

第一块是复杂场景的判断。比如医疗影像标注，一个CT切片上肿瘤的边界在哪里、跟周围组织怎么分，这种判断需要临床经验，模型能给初步建议，但最终决策得靠有医学背景的人。一个标了三年CT图的标注员，他的判断力不是模型在现有数据量下能替代的。

第二块是标注规范的制定。模型能执行规则，但规则本身是人定的。什么情况下算"遮挡"、什么程度的模糊算"无法识别"、边界case怎么处理——这些东西需要人来定义，而且每个项目都不一样。制定规范的那个人，他的经验值钱得多。

第三块是质量审核和兜底。模型标错的那些case往往是最难的、最模糊的、最有争议的。把这部分丢给模型自己判断，出来的结果会越来越离谱。必须有人兜底，而且兜底的人水平不能低。

第四块是特殊领域和小语种。大模型的训练数据分布不均匀，英语和中文的标注能力很强，但碰到小语种、方言、行业术语，模型就开始犯糊涂。这些领域的标注人力不仅没被替代，反而因为整体市场缩减而变得更稀缺了。

老实说，纯做简单标注的路已经走不通了。按件计费、不需要专业背景的那种标注工作，价格已经被压到很低了，而且还在继续往下走。

但往上走的空间其实打开了。

现在行业里最缺的不是标注员，是能做复杂标注的领域专家。医学、法律、自动驾驶、工业检测——这些领域需要懂行的人来标注数据，而这类人的供给远远不够。一个有三年医学影像标注经验的人，现在的薪资比两年前涨了不少。

另一个方向是转向数据工程。标注只是数据处理的一个环节，数据清洗、数据增强、数据质量评估、训练集构造——这些上下游的工作更偏工程化，门槛更高，也不容易被模型替代。从标注员转数据工程师，是一条可行的路径。

说到底

大模型对数据标注行业的冲击是真实的，而且已经发生了。80%的简单标注工作被吃掉，这个比例在接下来两年可能还会往上涨。

但这件事也有另一面：模型越强，对高质量标注数据的需求越大。模型能自己标80%的垃圾数据，剩下那20%的高质量数据反而变得更值钱了。标注行业不会消失，但它会从劳动密集型变成知识密集型。

对于还在这个行业里的人来说，现在的选择很明确——要么往上走，成为模型替代不了的那20%；要么等着被挤出去。

残酷吗？挺残酷的。但这就是技术迭代的常态。