百度智能云 标注服务能力分析

936 阅读10分钟

现在是2024年末,对比2022年别人的记录,会发现百度的标注平台也是在不断演进的: blog.csdn.net/weixin_4280…

进入 ai.baidu.com/

image.png

备注:另外还有一个千帆平台的标注服务,不要进错了,千帆的标注使用范围更具体,这里主要分析easydata console.bce.baidu.com/qianfan/dat…

image.png

数据集导入细节分析

1.数据类型选择后,会给出不同标注类型选项 2. 不同标注类型选项会给出不同的标注模版,同时悬浮到问号,会有基本的标注模版说明 image.png

1.本地导入文本会给出分隔符选项 2. 提供文本是否去重选项

  1. 上传文本页面会有针对文本的限制说明和样例引导 image.png

查看数据集列表: 1.悬浮显示数据集详情时,会把信息分为基本信息/标注信息等几部分

  1. 基本信息中可以查看数据导入记录信息

image.png

image.png

数据集操作按钮有个“标注”,点击自动跳转到在线标注,这样可以方便使用

image.png

image.png

在线标注:

百度在线标注其实就是获取了标注数据集列表接口,数据集,从操作的角度,百度业务上规避了一次标注多个数据集。每次标注只针对单个数据集,降低了复杂度: image.png

默认的标注模板没有带上标签,用户可以方便的在标注任务处理阶段添加自己想要的标签,有些场景下,我们需要根据文本内容灵活增加标签 : image.png

标注结果可以的在这个页面中显示: image.png

标注内容翻页后会自动保存(在线标注有个问题就是,我无法知道我当前在第几个标注子任务,假设有100个子任务,我无法直接定位到第30条去进行重新标注修改,不过通过上方的“全部”,“有标注信息”,“无标注信息“三个栏去筛选,也能满足常规管理需求): 这里有个细节,每次进入标注,默认选择的都是“无标注信息“这个栏

image.png

只有在标注详情页面可以看到全部到标注数据信息,点击查看弹出标注结果:

image.png

这里的去标注按钮,会精准定位到全部标注内容对应的标注子任务上: image.png

image.png

百度的在线标注完成的页面:

image.png 此时可以撤销部分标注内容,继续重新标注

多人标注部分

进入多人标注可以看到多人标注的使用引导流程, 页面下半部分是多人标注任务管理页 image.png

百度的多人标注,需要先创建标注团队和审核团队 (这里的团队成员只能是iam 子用户)

image.png

创建单用户标注团队:

image.png

团队管理页面,可以通过编辑去修改每个团队的成员:

image.png

选择一个在线标注已经标注了部分的数据集创建多人标注任务:

image.png

补充,创建完多人标注,任务不是立即变成待标注,而是“任务处理中”,后台完成任务分配后,才会变成待分配:

image.png

image.png

1.每次只能选择一个数据集 2.数据集中在线标注已被标注部分会被忽略 3.创建任务界面可以选择创建更多标签 (从这里看出,创建数据集的时候,对应的标注类型/标注模版已经选定。 每次创建任务只能选择一个数据集也是因为不同类型的数据集无法兼容同样的标注界面)

  1. 任务分配只有均分一种选择
  2. 如果配置了审核,可以选择抽检比例,默认20%, 可以在1%-100%之间,最小抽检总数为1
  3. 如果设置了标注后数据集生产新版本,会自动创建v2版本 image.png

重新去数据集页面,可以看到已经创建了一个数据集新的版本,但是数据量为0:

image.png

对于一个已经分配给多人标注的数据集,此时再进入在线标注就可以看到已经无法去操作标注了,只能在此处查看标注详情:

image.png

点击详情进入,可以看到上面会黄字提醒用户,多人标注中的数据集不支持编辑操作,只能查看 image.png

现在我们用标注员iam子账号登录云平台,可以看到,这里只能看到多人标注/我接受的任务,其他内容都是无法查看和操作的:

image.png

管理员点击多人标注 “查看进度”,做子任务管理:

image.png

未完结的子任务可以先进行任务完结,然后进行任务转交,任务移交可以选择已标注内容是否保存:

image.png

由于我测试的时候这个标注团队只有一个成员,所以,重新任务移交还是只有这一个客户可选(对于结束标注状态的子任务,只能进行任务移交一个操作)

image.png

image.png

任务移交完毕后,原来的子任务就进入终态“任务移交”, 然后新生成一条“待标注”的子任务

image.png

此时,在标注员iam用户的视角看到的界面如下: 可以看到之前已经完成任务移交的子任务和待标注的子任务,只有待标注的子任务,可以“启动标注” image.png

在标注员进行了部分标注但是未提交任务阶段:

image.png

管理员视角:

image.png 标注员视角 (注意,百度的设计,标注员在未完成全部标注条目时,也是可以点击提交按钮的,子任务变为已经提交状态): image.png

image.png

当标注员在未完成全部标注就提交子任务的情况下,管理员视角查看进度页面也会看到子任务已提交,且无法再进行后续操作:

image.png

此时,管理员查看发起任务列表: 1.任务状态已经变成 标注完成(所有子任务已提交)

  1. 操作栏不再出现停止任务,多出一个“验收任务”
  2. 查看数据集页面,v2版本数据量依然为0 image.png

接着管理员操作验收任务: 1.即使标注员只标注了一条就提交了任务,验收时还是看到有2条未验收

  1. 验收页面会逐条显示标注内容,并提供验收通过和不通过按钮
  2. 可使用快捷键Y , N快速通过和不通过验收
  3. 不通过验收可以填写不通过意见信息

image.png

image.png

验收界面可以操作任务打回: 1.任务打回有多个选项,可打回未验收数据/验收不通过数据/未验收+验收不通过数据

image.png

选择打回验收不通过数据之后: 管理员视角查看任务:

  1. 任务状态重新变成标注中,进行中子任务总数变为1 image.png

管理员查看任务进度: 1.发现原子任务已经进入终态“任务打回” 2.新生成了一个对应标注员的子任务,标注任务量为1,对应管理员验收未通过的数据。 image.png

标注员视角查看任务:

  1. 看到之前标注任务已经被验收打回,同样多出一条待标注子任务
  2. 此时标注员重新进行子任务标注时,可以看到标注页面上能看到之前的验收意见,见下图2 image.png

image.png

等待标注员依据审核意见重新完成标注后,管理员视角重新处理验收任务流程 1.测试来看,标注员完成子任务提交之后,管理员查看任务列表,任务状态并不是立即进入标注完成的,应该是后台有异步任务在处理这个

image.png

此时再次进入验收页面,可以看到只需要对之前打回的那一条做验收处理,上次验收通过的记录不需要处理:

  1. 用户可以通过“剩余验收通过”按钮快速处理全部未验收记录 ,见图2 image.png

image.png

最终走到验收完成: 1.验收完成可以选择仅对验收通过的数据做保存

  1. 验收完成后,多人标注任务状态变成验收完成, 操作栏多出一个查看数据集按钮,可自动跳转数据集详情 3.验收完成后,数据集页面v2版本数据量更新为2

image.png image.png

image.png

数据集详情页面可查看全部数据,也可按照标注信息,过滤包含每个标签的数据 image.png

image.png

数据集导出

1.可选择导出原文件或者源文件+已标注文件

image.png

image.png

2.查看导出记录,可在这里下载

image.png

下载文件内容:

image.png

带审核多人标注

case: 数据集有3条标注记录, 配置标注小组成员1人, 配置审核小组成员2人

管理员视角:

image.png image.png

标注未完成时,查看进度,看不到审核信息:

image.png

标注员视角:

image.png

等标注员标注完成提交后,管理员继续查看标注任务: 1.这里的任务状态后面多一个问号,悬浮上去可以看到,任务对应的子任务个数和子任务完成度(注意这里是子任务个数,而不是待标注记录总数)

image.png

image.png

这里管理员继续点击查看进度,可以看到子任务详情才会出现审核部分的信息(此时会多出结束审核/审核任务移交相关按钮):

image.png

子任务审核结束后重新移交(移交后最终会多出一条子任务):

image.png

image.png

image.png

image.png

审核员视角进行审核:

可以看到审核子任务id和标注子任务id是不一样的:

image.png

image.png

审核界面可以看到标注员的标注信息,审核完毕后可以提交审核子任务:

image.png

image.png

标注/审核子任务均提交后的状态: 1.可查看任务进度,对于审核通过率非100%子任务,可进行任务打回 2.可进行任务验收

image.png

image.png

操作子任务打回后状态: 1.标注员看到原标注子任务状态未审核打回,并生成新的待标注子任务,过一段时间后,新的标注子任务自动流转为标注中,并记录之前的标注信息,并附带上审核意见。

  1. 审核员看到原审核子任务状态变为审核打回 image.png

image.png

image.png

image.png

标注员依据审核意见,重新操作标注并提交标注子任务后:

  1. 标注子任务变成已提交状态
  2. 审核员会多出一条带审核任务

image.png

管理员视角:

image.png

审核员重新审核完毕后,可以在审核页面提交,也可在子任务页面提交(前提是子任务审核进度已经完成):

image.png

image.png

标注/审核再次全部完成后,管理员查看标注进度:

  1. 百度的设计上,即使是审核员100%通过的时候,也是可以直接把子任务打回的
  2. 这次我们直接在任务列表页面点击验收任务并验收通过,整个标注流程就完整结束了。当然这里也可以无理由操作“打回任务” image.png image.png

参考: 百度标注文档: ai.baidu.com/ai-doc/Easy…