数据标注的由来
人工智能的实现
实现人工智能可以考虑到以下三条路径:
- 输入经验知识;人将知识通过规则等形式教给计算机,让计算机进行智能性处理。
- 实现人类大脑:解明人脑的机制,基于相同的原理实现人类智能。
- 从数据中学习:通过数据驱动机器学习的方法模拟人类智能。
人工智能传统的符号处理属于第1条路径。
机器学习属于第3条路径。
深度学习是受人脑启发的机器学习,属于第3条路径,但也借鉴了第2条路径。
人工智能的学派
迄今为止,全世界对于“什么是智能”尚无统一认识,但经过多年的探索,人工智能已然走出了两条道路。一条道路是行为主义学派,另一条道路是内在主义学派。
- 符号主义学派: 认为人类认知和思维的基本单元是符号,而认知过程就是在符号表示上的一种运算。致力于使用某种符号来描述人类的认知过程,并把这种符号输入到能处理符号的计算机中,从而模拟人类的认知过程。
- 联结主义学派: 模拟人脑的工作方式,使用神经网络来模拟人脑神经元的连接方式和学习算法。
- 行为主义学派: 强调从行为的角度来理解智能。认为智能体应该通过与环境的交互来学习和适应,而不是仅仅通过内部符号处理。
- 进化学派: 对生物进化进行模拟,使用遗传算法和遗传编程。
- 贝叶斯学派: 使用概率规则及其依赖关系进行推理。
- 类推学派
- ...
人工智能的三要素
人工智能的三要素: 算法、算力、数据
- 数据是人工智能的基础,大量的数据可以帮助人工智能系统学习理解人类世界。因此,人工智能应用需要大量的数据支持,同时也需要对数据进行处理和分析。
- 算法是人工智能的核心,它可以帮助计算机理解和处理复杂的数据。与传统的软件系统不同,人工智能算法需要不断调整和优化,以适应复杂和多变的环境。
- 算力则是实现人工智能算法的基础,特别是随着深度学习算法的兴起,人工智能需要更高效的算力支持。因此,高性能计算、云计算等技术的发展也为人工智能带来了更大的机遇。
可以说,数据、算法和算力是人工智能发展的三个关键要素。只有在这三个方面都有足够的支持和突破,人工智能才能不断进步和发展。
数据
1. 数据好比食材
数据对于AI,好比食材对于美食。
没有酸菜,康师傅做不出老坛酸菜牛肉面;
没有茅台,瑞幸做不出酱香拿铁;
没有冰块,蜜雪冰城应该叫蜜城。
光有数据不够,就像仅仅“有”食材是不够的,对食材本身主要有以下要求:
1.1 数据质量
不能用被脚踩出来的劣质酸菜去生产产品,要在正式生产前就把劣质数据给识别过滤掉,这在AI训练里叫做数据清洗。
1.2 数据量
只有一瓶茅台生产不了酱香拿铁这个产品,得是卡车成吨成吨的供应。所以这也是为什么说谷歌百度这样的公司做AI很有优势的原因。
1.3 数据多样性
只有牛奶和茶可撑不起奶茶店,还得有椰果、红豆、珍珠、仙草,才能做出丰富多样的奶茶。所以做汽车自动驾驶AI的,不能只在测试道路跑,他得在乡村、夜间、停车场 等等各种场景下采集数据。
总结起来对于AI来说,数据:要好,要多,要全
算法
2. 算法好比食谱
食谱教会我们如何处理食材,而算法则告诉计算机如何处理海量数据
用不同的算法好比各种菜系的食谱,不同的菜系食谱满足不同的口味需求,不同的算法满足不同场景的需求。
例如:
2.1 文本算法
科大讯飞的AI转写工具可以帮助记者实时生成文字稿、自动撰写摘要、调整文风、精简文本等,提高工作的整体节奏,保障最终产出的时效性。
2.2 图形算法
阿里巴巴研发的AI模特平台塔玑允许商家生成成千上万种五官组合的虚拟模特,上传手机拍摄的衣服平铺图或服装设计矢量图后,即可生成模特身穿产品的广告图。
2.3 语言算法
“注意看,这个男人叫小帅。”短视频平台的很多电影解说都伴随这句话开始,抑扬顿挫的男声搭配一些电影的高潮情节画面,再加上相似的解说套路和背景音乐,这其实就是AI生成语音的典型应用
2.4 视频算法
在电影《速度与激情7》中,由于男主角保罗·沃克在拍摄中途不幸离世,制作团队联合维塔特效公司,从先前未使用的镜头中收集保罗的面部数据,让他最终得以在电影中“重生”。
算力
3. 算力好比厨具
厨房是厨师施展才华的舞台,算力则是AI施展手脚的条件。
根据OpenAI分析,自2012年以来,6年间AI算力需求增长约30万倍。也就是说如果说以前的AI算力是一个小灶台可以供一个家庭吃饭,那么现在的算力需求是要有个超级灶台,要供应一个城市的所有人吃饭。
关于算力主要下面三个要素:
3.1 数据存储
厨房要能足够大,才能储存足够丰富的食材。
3.2 计算速度
厨房的火力得猛,上菜速度才能够快
3.3 节能效率
超级厨房得省电,上的菜才能便宜,普通人才能用的起
监督学习 (Supervised Learning)
机器学习按训练方法分为3大类:监督学习、非监督学习、强化学习。所谓训练方法,就是我们让机器如何从浩瀚的数据中学习到有用的知识和规律,这和人类自身的学习过程有很多相似之处。不同的任务要求和数据特征,可能要采用不同的训练方法,或者多种训练方法的组合。
-
有监督学习:所有训练数据是带标签的,模型需要的样本数据必须包含特征数据和标签数据。
- Supervised FineTuning,有监督微调,是指在一个预训练的神经网络模型基础上,利用带有标签的新数据对其进行微调以提高其性能的过程,当前优质多模态大模型训练的主要手段。
- 只有在有监督学习的情况下,带有“标签”的数据才能成为模型优化的“老师”,也正是因为有监督学习,才需要大量经过标注的数据作为先验经验。
-
半监督学习:只有少部分训练数据是带标签的
-
无监督学习:所有数据都是不带标签的
有监督学习是基于有属性标签的样本数据进行模型训练。标签的本质是表征样本数据和目标结果之间的联系,训练的过程就是要提取出样本数据的特征,根据标签建立特征值和目标结果的函数映射关系。 通过这种不断地学习和训练过程,让这种映射越来越准确(即拟合的越来越好),最终实现对新数据进行预测。有监督学习的主要挑战是获取具有准确标签信息的样本数据,对训练样本的标注往往需要花费大量人工成本
那些用于垃圾邮件过滤、语言检测、分类和计算机视觉的机器学习模型,经常会采用监督学习方法。
机器学习的过程
对于机器学习来说,训练数据不可或缺,而数据标注正是为了得到用于训练的原材料
(1)数据收集
- 收集数据:这是机器学习项目的第一步,涉及收集相关数据。数据可以来自数据库、文件、网络或实时数据流。
- 数据类型:可以是结构化数据(如表格数据)或非结构化数据(如文本、图像、视频)。
(2)数据预处理
- 清洗数据:处理缺失值、异常值、错误和重复数据。
- 特征工程:选择有助于模型学习的最相关特征,可能包括创建新特征或转换现有特征。
- 数据标准化/归一化:调整数据的尺度,使其在同一范围内,有助于某些算法的性能。
(3)选择模型
- 确定问题类型:根据问题的性质(分类、回归、聚类等)选择合适的机器学习模型。
- 选择算法:基于问题类型和数据特性,选择一个或多个算法进行实验。
(4)训练模型
- 划分数据集:将数据分为训练集、验证集和测试集。
- 训练:使用训练集上的数据来训练模型,调整模型参数以最小化损失函数。
- 验证:使用验证集来调整模型参数,防止过拟合。
(5)评估模型
- 性能指标:使用测试集来评估模型的性能,常用的指标包括准确率、召回率、F1分数等。
- 交叉验证:一种评估模型泛化能力的技术,通过将数据分成多个子集进行训练和验证。
(6)模型优化
- 调整超参数:超参数是学习过程之前设置的参数,如学习率、树的深度等,可以通过网格搜索、随机搜索或贝叶斯优化等方法来调整。
- 特征选择:可能需要重新评估和选择特征,以提高模型性能。
(7)部署模型
- 集成到应用:将训练好的模型集成到实际应用中,如网站、移动应用或软件中。
- 监控和维护:持续监控模型的性能,并根据新数据更新模型。
(8)反馈循环
- 持续学习:机器学习模型可以设计为随着时间的推移自动从新数据中学习,以适应变化。
技术细节
- 损失函数:一个衡量模型预测与实际结果差异的函数,模型训练的目标是最小化这个函数。
- 优化算法:如梯度下降,用于找到最小化损失函数的参数值。
- 正则化:一种技术,通过添加惩罚项来防止模型过拟合。
机器学习的工作流程是迭代的,可能需要多次调整和优化以达到最佳性能。此外,随着数据的积累和算法的发展,机器学习模型可以变得更加精确和高效。
链接:机器学习简介
深度学习(Deep Learning, DL)是机器学习的一个子领域,基于人工神经网络的多层结构。通过模拟人脑的神经元连接,深度学习能够自动提取数据中的特征,并执行复杂的预测或分类任务。与传统机器学习方法不同,深度学习模型能够自动发现数据中的模式,无需人为设计特征。
从算法类型来说,目前的主流是深度学习,即通过多层神经经网络学习数据中的特征,学到高度抽象的模式。在内容理解中,对模型最常见的要求是完成分类打标;准备至少万量级的为数据,通过深度学习方法进行监督学习,就是内容理解领域非常经典、标准的工作方法。
大模型
大模型是从海量数据中学习并记住泛知识后,在 域内数据 + 提示数据集 的 修正下,具备在某类具有相对更准确能力的计算系统,其本质是概率模型。
大模型本质由巨大的 参数文件 + 运行参数 的代码文件两大核心组件构成。其中:
1)参数文件是通过大量 数据训练获得的,代表从数据中提取的有用信息和模式(可称为“知识”),其参数量与对知识的记忆能力,与数据量、数据按照 不同说明进行曝光的次数有关。
2)代码文件有点类似“大脑”,主要是指导参数文件进行推理和产出,其中,可根据域内数据、提示数据集等进行调参,不断提升模型的准确性。
大模型能力获得主要有四步:
1)针对大量数据进行预训练,让大 模型学习并记住知识;
2)明确大模型能力侧重点,即给一定高质量、针对性强的域内数据集微调,让大模型在某些能力更加突出;
3)通过标注人员对大模型给出的答案进行排序,给予大模型正向反馈;
4)强化学习。
就大模型的本质而言, 是由一系列参数化的数学函数组成的计算系统,且是一个概率模型,其工作机 制是基于概率和统计推动进行的,而非真正的理解和逻辑推理,因此,当前大模型具有 不可解释性和幻觉不可消除等主要特征。大模型本质是一个概率模型,可从2个角度理解:
1)具有不可解释性: 虽然可以调参,但是并不知道这些参数在做什么,如何协同工作,表示的是什么意思;
2)幻觉不可消除: 模 型的工作机制是基于概率和统计推断进行的,而非真正的理解和逻辑推理,且与预训练的数据量、曝光次数、微调数据量及数据的 选择、奖励函数偏好等息息相关。
获取标注数据的方式
-
数据标注:靠人去标注各种数据,提取翻译各种数据里面所包含的特征信息。
-
适用场景:业界有相关性的开源数据,保密性不高;或者数据标注人力充足。
-
技术方法:
- 利用开放数据集:结合多个领域的数据,扩展训练集,共享资源。
- 标注人力打标:在人力充足的情况下,可以通过人工对所在场景进行打标,利用质检等手段保障打标质量。
-
-
已有数据增强:
-
适用场景:当可用的标注数据量较少时,或某一类样本不均衡,标注人力不足时适用。
-
技术方法:
- 传统处理方法:例如图像翻转、旋转、缩放、平移、裁剪、颜色变换等;NLP领域的句子重排、同义词替换、插入随机单词等。
- 基于LLM生成数据:基于已有语料,通过大模型PE针对不同子场景、子功能,模拟人类各种情感泛化生成文本。
- 基于对抗生成网络:常见的生成对抗网络(GAN)、变分自编码器(VAE)增强样本,可以创建与样本数据高度相似的数据,有助于在保持原始数据分布的同时增加多样性。
-
-
合成新数据:
-
适用场景:当真实世界中获取数据遇到困难,可考虑采用合成数据。
- 真实世界中难以观测:罕见疾病、极端天气、极端风险挖掘等
- 数据获取和处理涉及到真实世界中的个人信息甚至敏感信息,特别是医疗健康和金融领域
- 真实世界中数据获取的成本比较高:人类大量的高质量反馈
-
技术方法:合成数据通过算法和数学模型创建的,作为供给数据的有效补充和替代。
-
特征
特征是机器学习中的输入,原始的特征描述了数据的属性。它是有维度的。特征的维度指的是特征的数目(不是数据集里面样本的个数),不同的数据集中的数据特征的维度不同,有多有少。
标签
标签,也就是机器学习要输出的结果,是我们试图预测的目标。示例里面的标签是房价。实际上,机器学习要解决什么问题,标签就是什么。比如:未来的股票价格、图片中的内容(猫、狗或长颈鹿)、文本翻译结果、音频的输出内容、Alpha Go的下一步走棋位置、自动导购汽车的行驶方向等。
标签是监督学习数据集特有的,是样本所属的类别或结果。标签有时候是随着样本一起来的,有时候是机器推断出来的,称作预测标签y'(也叫y-hat,因为那一撇也可放在y的上方,就像是戴了一个帽子的y)。比较y和y'的差异,也就是在评判机器学习模型的效果。并不是所有的样本都有标签。在无监督学习中,所有的样本都没有标签。
-
带标签的数据是具有一些预定义标签(例如名称、类型或类数字)的数据。例如,图像有苹果或香蕉。同时,未标记数据不包含标签或不指定名称。
-
标记数据用于监督学习技术,而未标记数据用于无监督学习习。
-
有标签的数据很难获取,而无标签的数据很容易获取。
-
半监督学习使用组合数据(即标记数据和未标记数故据)来训练模型,这降低了获取标记数据的难度。
模型
模型将样本映射到预测标签y'。其实模型就是函数,是执行预测的工具。函数由模型的内部参数定义,而这些内部参数通过从数据中学习规律而得到。在机器学习中,先确定模型的类型(也可以说是算法),比如是使用线性回归模型,还是逻辑回归模型,或者是神经网络模型;选定算法之后,再确定模型的参数,如果选择了线性回归模型,那么模型f(x) = 3x + 2中的3和2就是它的参数,而神经网络有神经网络的参数。类型和参数都确定了,机器学习的模型也就最终确定了。
训练Training 是指创建或学习模型。也就是说,向模型展示有标签样本,让模型逐渐学习特征与标签之间的关系。
推断Inference 是指将训练后的模型应用于无标签样本。也就是说,使用经过训练的模型做出有用的预测(y')。
结构化/非结构化数据
结构化数据是指那些以固定格式或模式存储的信息,通常可以被快速检索和处理。结构化数据的特点包括:
- 格式固定:每条数据都有明确的字段和定义。
- 易于查询:通过SQL等查询语言可以高效地进行搜索和筛选。
- 标准化:数据格式统一,便于管理和分析。
这类数据最典型的例子就是数据库表格中的信息,例如关系数据库 (RDBMS) 或电子表格中的信息,客户名单、销售记录、电话号码、社会保障号、收入、序列号和产品描述都是结构化数据。结构化数据就是常见的二维表结构,excel或sql数据库都是以二维表的形式存在的。
非结构化数据,这类数据没有预定义的模式或结构,形式多样且难以直接处理。非结构化数据的特点有:
- 形式多样:可以是文本、图片、视频等多种形式。
- 难以索引:由于缺乏固定的格式,非结构化数据不易于直接检索。
- 复杂性高:需要使用更高级的技术来提取有价值的信息。
非结构化数据是未通过预定义模式进行结构化的数据,包括图像、视频、激光雷达、雷达、一些文本数据和音频数据等。常见的非结构化数据包括电子邮件、社交媒体帖子、图像、音频文件等。例如一张图片,本质上是一堆265色的像素点按一定的顺序进行排列组合,如果要知道这张图片上是否有一只鸟,就得人工用一个框把物体框出来,并做好标记,告诉计算机在这个框里有一只鸟。这样计算机就可以把框内的像素点当做鸟的特征进行学习,构建出识别鸟的模型。
非结构化的数据也是无法直接使用的,需要根据使用者的需要,将其中有用的部分标记出来,转变为计算机可以理解的结构化数据,才可以被用于AI建模,这个过程就称之为数据标注。
很多时候,大家分不清楚人工智能与大数据之间的关系,大数据产业是人工智能的初级阶段,人工智能产业是大数据产业的升级及蜕变,二者之间有着联系,但也有着本质的区别。
人工智能是机器产生的智能,在计算机领域是指根据对环境的感知,做出合理的行动并获得最大收益的计算机程序。也就是说,要想实现人工智能,需要把人类理解和判断事物的能力教给计算机,让计算机拥有类似人类的识别能力。人类在认识一个新事物时,首先要形成对该事物的初步印象,例如,要识别出飞机,,就需要看到相应的图片或者真实物体。数据标注可视为模仿人类学习过程中的经验学习,相当于人类从书本中获取已有知识的认知行为。具体操作时,数据标注把需要计算机识别和分辨的图片事先打上标签,让计算机不断地识别这些图片的特征,最终实现计算机能够自主识别。数据标注为人工智能企业提供了大量带标签的数据,供机器训练和学习,保证了算法模型的有效性。
数据标注的定义
人工智能包括人工和智能两部分,智能的核心主要是算法模型,而人工的核心则是数据标注。
数据标注 (Labeling) 又称数据标记、或数据注解 (Annotation),即对文本、图像、语音、视频等待标注数据进行标记、批注、整理、归类、编辑和纠错等操作,为待标注数据增加标签,生成满足机器学习训练要求的机器可读数据编码。
什么是数据?数据是表示事物、对象的属性或反映其物理特征的数值。
抽象点理解,数据标注是对数据的属性、功能、以及数据之间的关系进行标记的过程。
广义来讲,数据标注是指一切与数据加工有关的服务包括数据清洗、格式调整、识别、整理、形式转换等。 或者说数据标注是一种数据加工的方式。
机器学习的发展和进步主要依赖算法和数据,这里所说的数据是指机器学习所用的带标数据,这种带标数据是通过数据标注的方式获得的。被标注的数据可以突出相关的特性并且可以根据不同的特征进行分类-可以用来被model分析模式并预测新的目标。
数据标注是将原始数据加工成适用于人工智能算法模型进行学习和训练的结构化数据的过程。简单来说,数据标注是对未经处理的语音、图片、文本、视频等数据进行特征标签,将非结构化的数据转变为机器可识别的结构化数据,使机器通过大量学习这些数据,化“人工”为“智能”
暂时无法在飞书文档外展示此内容
目的:为监督学习或半监督学习提供“参考答案”,帮助模型建立输入数据与预期输出之间的映射关系。
AI从0到1学会一项能力,要通过数据做大量的“练习题”,但生活中的数据是非结构化的,数据标注的作用,就是将非结构化数据,变为电脑可理解的结构化数据。
-
Labeled Data(标记数据): :图中蓝色区域显示了标记数据,这些数据包括了不同的几何形状(如六边形、正方形、三角形)。
-
Model Training(模型训练): :在这个阶段,机器学习算法分析数据的特征,并学习如何根据这些特征来预测标签。
-
Test Data(测试数据): :图中深绿色区域显示了测试数据,包括一个正方形和一个三角形。
-
Prediction(预测): :模型使用从训练数据中学到的规则来预测测试数据的标签。在图中,模型预测了测试数据中的正方形和三角形。
-
Evaluation(评估): :预测结果与测试数据的真实标签进行比较,以评估模型的准确性。
人工智能基本上是通过模仿人工标注数据来进行训练的语言模型。所以不要将对话视为「询问人工智能」的神秘主义,而应将其更多地视为「询问互联网上的平均数据标注者」。
分类方法
一些名词解释
数据标注的核心目标
核心目标
- 提升数据标注的能力(即支持各种数据类型的标注)
- 提升做题的质量和效率。
- AI 算法核心场景全类型覆盖
数据:要好,要多,要全
数据标注越准确、标注的数据量越大,算法的性能就越好。核心关注点围绕两点展开: 数量、质量。数据标注赛道有规模效应。客户对数据标注的关注点主要在“质量”和“效率”两个方面,由于数据标注不是高技术含量的工作,因此经验对质量和效率的提升就起到关键作用。这里的经验又包括工人标注数据的经验,以及对整套流程和体系的管理经验。经验一定程度上也与规模和数量有很大联系,规模越大,标注的数据量越多,经验就越成熟、越丰富,标注数据的质量和效率就越高。高质量数据、超大规模数据成为大语言模型的关键基础。
计算机科学公理“垃圾进垃圾出”在机器学习中尤其明显,因为数据是学习过程的主要输入。如果数据或标签质量差,结果就会很差。
AI对数据的依赖相当于人类对空气的依赖。即对数据量级、数据规范对要求极高
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
数据标注质量有关因素:
- 数据标注人员素质
- 数据标注工具效率
- 企业管理能力
数据标注平台水平阶段划分
模型性能好坏
决定模型性能好坏的关键是什么:
- 样本质量:对训练来说,高准确的训练集可以避免模型学到噪声,标注数据质量越高越好。尽管大模型拥有强大的知识储备,但我们想在特定领域实现高性能,要尽可能保证数据的准确性和充足的量级,高质量的题海战术是提升模型性能最关键的部分
- 标注量级:无论是哪种算法结构,都需要一定量的数据学到到特征。如果样本量过少,模型效果就很难提升;随着数据量增加,模型效果可以快速提升,但提升到了一定定水平,边际效益就会开始降低,优化曲线开始逐渐平缓,模型效果提升开始变慢、或者难以再有突破。
- 样本的分布和多样性:模型的目标是能够识别线上全量数据,训练样本的分布和特征越接近线上的真实情况,越有利于模型训练;否则可能学不到一些重要的特征或分类,或过度重视一些模式、对新数据的泛化能力较差。
- 模型参数规模&模型复杂度:模型参数可以类比人类神经元,激活使用的神经元越多,智慧程度就越高,能学到的知识也就越多,性能越好