数据已经成为新的源代码,我们需要一种方法来管理它。
Superb AI + Pachyderm(图片由Pachyderm、Superb AI和作者提供
数据已经成为新的源代码,我们需要一种方法来管理它。
数据是_如此_重要,以至于许多人工智能领域的领先从业者正在推动数据成为ML工作流程的中心。许多年来,代码一直处于软件开发的中心。而我们已经开发了惊人的工具和流程来创建伟大的软件,变得更加敏捷和有效。但是今天,随着机器学习软件的兴起,为机器学习应用策划正确的数据是最关键的因素。如果没有开发数据集的工具和流程,我们就无法创建具有现实世界影响的模型。
机器学习的两个生命周期。(图片来自Pachyderm)
这些阶段的管理绝非小事一桩。选择数据源、生成标签、重新训练模型,所有这些都是数据策划生命周期中的关键组成部分,而我们通常是以一种临时的方式来执行它们。那么,我们怎么做才能使我们的努力不至于像滚雪球一样失去控制?
我们需要一个以数据为中心的方法。我们需要工具来支持数据开发。
在这篇博客中,我们将结合两个关键工具来改善以数据为中心的操作。Superb AI Suite和Pachyderm Hub。这两个工具共同为你的数据运营工作流程带来了数据标签和数据版本。
超级人工智能套件。规模化的标签数据
Superb AI套件的工作流程图。(图片由Superb AI提供)
Superb AI为ML团队引入了一种革命性的方法,以大幅减少提供高质量训练数据集的时间。团队现在可以通过Superb AI套件实施一个更有时间和成本效益的管道,而不是依靠人类标签人员来完成大部分的数据准备工作。
Superb的ML-first标签方法应该像上图一样。
- 你首先将所有收集到的原始数据摄入到Suite平台,并只标记一些图像。
- 然后你在一个小时内训练Suite的CAL功能(自定义自动标签),不需要任何自定义工程工作。
- 一旦完成,你就可以将训练好的模型应用到你的数据集的其余部分,立即为它们贴上标签。
- Superb AI的CAL模型也会告诉你哪些图像需要使用专利的不确定性估计方法与模型预测一起进行人工审核。
- 一旦你完成了对少量硬标签的审核和验证,你就可以交付训练数据了。
- 然后,ML团队训练一个模型,并向你反馈要求提供更多数据。
如果你的模型表现不佳,你需要一组新的数据来增加你现有的地面真实数据集。接下来,你将它们运行到你预先训练好的模型上,并将模型预测结果上传到我们的平台。然后,Suite会帮助你找到并重新标记故障案例。最后,你可以在这些边缘案例上训练Suite的自动标签,以推动性能提升。
这个循环一次又一次地重复。随着每次迭代,你的模型将涵盖越来越多的边缘案例。
关键能力。
- 迅速创建少量的初始真实数据以启动标签过程
- 通过可定制的自动标签技术迅速启动任何标签项目,该技术可以适应您的特定数据集
- 通过使用专利的不确定性估计AI来简化审核和验证工作流程,快速识别出需要审核的困难例子
你可以通过Superb AI套件免费试用。
Pachyderm。版本化的数据+自动化
Pachyderm平台的示意图 - 机器学习的数据基础。通过数据版本化和管道将MLOps添加到任何工具链中。(图片由Pachyderm提供)
Pachyderm是机器学习的数据基础。它是你的数据驱动的应用程序的GitHub。
在引擎盖下,Pachyderm通过结合两个关键组件形成这一基础。
- 数据版本管理和
- 数据驱动的管道。
与git类似,通过Pachyderm的数据版本管理,你可以用repos和commits来组织和迭代你的数据。但Pachyderm不限于文本文件和结构化数据,而是允许你对任何类型的数据进行版本管理--图像、音频、视频、文本--任何东西。该版本系统经过优化,可以扩展到_任何_类型的大型数据集,这使它成为超级人工智能的完美搭配,给你带来凝聚力的可复制性。
Pachyderm的管道允许你将你的代码连接到你的数据存储库。它们可以通过在提交新数据时重新运行管道,来实现机器学习生命周期的许多组成部分(如数据准备、测试、模型训练)的自动化。Pachyderm管道和版本管理一起为你的机器学习工作流程提供了端到端的线索。
关键能力。
- 自动化和统一您的MLOps工具链
- 与一流的工具集成,实现以数据为中心的开发
- 快速迭代,同时满足审计和数据治理要求
您可以通过Pachyderm Hub免费试用。
Pachyderm作为Superb AI的版本化存储器
Superb AI套件+Pachyderm集成图。数据在Superb AI套件中被标记。Pachyderm在cron tick时间表上自动拉取数据集,并将数据集提交给输出的sample_project数据仓库。(图片由作者提供)
在这个整合中,我们提供了一个自动化的管道,以从Superb AI中标示出版本数据。这意味着我们从Superb AI套件中获得了所有的好处,可以摄取我们的数据,为其贴上标签,并管理我们敏捷的标签工作流程**,以及**从Pachyderm中获得了所有的好处,可以对我们的ML生命周期的其余部分进行版本和自动化。
管道本身会自动将数据从Superb AI Suite拉到Pachyderm Hub集群中,将其作为一个提交的版本。这只是通过为我们的Superb AI访问API密钥安全地创建一个Pachyderm秘密。然后这个密钥可以用来创建一个管道,将我们的Superb AI数据拉到Pachyderm数据仓库中。
我们通过使用一个cron管道来实现自动化,该管道将根据时间表自动拉取新的数据(在我们的例子中,每2分钟)。输出的数据集将被提交到我们的sample_project数据存储库。
Superb AI样本数据集的Pachyderm仪表板视图。(来源:Superb AI的图片)
一旦我们在Pachyderm中拥有了我们的数据,我们就可以建立其余的MLOps管道来测试、预处理和训练我们的模型。
总结
以数据为中心的开发是产生在现实世界中运行的机器学习模型的关键。Superb AI和Pachyderm一起将数据准备阶段统一为可靠和敏捷的阶段,确保我们可以继续用好的数据喂养我们的模型,并减少数据错误。