用于 MLOps 的最佳特征平台(Aporia)

413 阅读4分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第16天,点击查看活动详情

image.png

对于越来越多的数据科学团队来说,特征存储正在成为他们 ML 管道的重要组成部分。如果您的公司正在处理大量数据,那么拥有一个作为可在各种 ML 模型中使用的文档化特征的仓库的特征平台可能非常有价值。

什么是特征平台?

特征平台本质上是一个数据管理系统,用于管理机器学习特征、特征工程代码和数据。借助特征平台,机器学习流水线和在线应用程序可以轻松访问该数据。数据科学家可以专注于训练和重新训练具有最新特征的模型,而不是需要不断地为新模型重建特征。

为什么特征平台很重要?

特征平台创建了一个中心的位置,组织内的不同团队可以共享、构建和管理特征,从而无需重新构建相同的特征。这使组织能够节省时间、资源、确保信息的一致性并扩展他们的人工智能。

特征平台现在在现代机器学习中发挥着至关重要的作用,这一点都不奇怪。通过自动化和集中管理为操作机器学习模型提供动力的数据流程,特征平台有助于快速可靠地开发和部署特征。

如何选择特征平台?

数据科学家、ML 工程师、Dev Ops 和数据工程师都应该有能力找到特征,在新应用程序中重用它们,并可视化数据统计。同样重要的是,您的特征平台包括强大的数据转换功能,以便您的团队可以轻松地聚合、加入、过滤和操作数据。

为了帮助您为您的组织选择最佳特征平台,我们比较了 MLOps 领域中的各种特征平台。

下面是目前可用的最好的特征平台列表。

Tecton

Tecton 特征平台使数据科学家和数据工程师能够控制特征的整个生命周期——从构建新特征到在数小时内部署它们。

image.png 好处

  • 使用批处理、流式处理和实时数据来构建高质量的特征
  • 通过共享和重用特征更快地构建更好的模型
  • 在生产环境中即时部署和提供特征
  • 与 Amazon SageMaker、Databricks 和 Kubeflow 轻松集成
  • 专为支持企业级规模而构建

Butterfree

一种用于构建能够将原始数据转换为特征的特征平台的工具。

image.png

好处

  • ETL:用于创建数据流水线的中心框架; 基于 Spark 的 Extract、Transform 和 Load 模块可供使用
  • 声明式特征工程:专注于您希望计算的内容,而不是如何编码
  • 建模:一个库,可用于轻松提供处理数据并将数据加载到特征平台所需的一切

Bytehub

易于使用的特征平台,支持大型数据集和集群计算。

好处

  • 使用简单,具有类似 Pandas 的 API
  • 不需要复杂的基础设施,可以运行在本地 Python 安装环境或云环境中
  • 针对时间序列操作进行了优化,使其非常适合金融、能源、天气预测等应用
  • 支持简单的时间/值数据以及复杂的结构,例如:字典

Feast

Feast是一个操作数据系统,用于管理和服务于生产环境中模型的机器学习特征。

image.png

好处

  • 提供单一数据访问层,将特征平台从特征检索中抽象出来,以将模型与数据基础架构解耦
  • 通过提供用于发布特征的集中式注册表和久经考验的服务层,最大限度地减少监督以将特征交付到生产环境中
  • 在导出特征数据集进行模型训练时,通过提供时间点正确的特征检索来解决数据泄漏的挑战
  • 能够通过从集中式注册表中选择以前设计的特征来启动新的 ML 项目,而无需开发新特征

Hopsworks

Hopsworks 的特征平台允许您管理您的训练和服务模型。

image.png

好处

  • 为训练和批量推理提供横向扩展存储,并为需要构建特征向量以进行实时预测的在线应用程序提供低延迟存储
  • 提供 Python 和 Java/Scala API,使批处理和在线应用程序能够管理和使用机器学习特征
  • 与流行的数据科学平台无缝集成,例如:AWS Sagemaker 和 Databricks 以及后端数据湖,例如: S3 和 Hadoop
  • 支持云和本地部署

原文链接:Best Feature Stores for MLOps