数据科学项目的生命周期

824 阅读3分钟

概述

数据科学项目的开发周期与传统的软件开发周期不同。虽然各组织的开发方法和实践各不相同,但大多数组织都有类似的流程。其中一个众所周知的流程是数据挖掘的跨行业标准流程(CRISP-DM),本博客将介绍它的总结版本。

数据科学的生命周期

数据科学项目的生命周期分为六个阶段。

业务理解- 了解业务背景和短期及长期目标

数据理解--了解数据的质量和数量的可用性

数据准备--准备好正确的数据集、特征和数据工程,以便在模型中使用

建模- 选择正确的建模技术、算法和框架

评估--模型评估、基准标记和衡量标准

部署--最终模型的部署

下图显示了一个典型的数据科学项目的生命周期。

图:数据科学项目生命周期

业务理解

在这个阶段,业务需求和目标被理解。这个阶段是关于评估、规划、定义治理模式和成功标准。

数据理解

在这个阶段,数据被获取和检查。数据理解可以包括探索性数据分析,数据可视化,评估数据的质量和数量。

数据准备

数据准备阶段是数据科学项目生命周期中最重要的阶段之一。在这个阶段进行的一些活动是确定正确的数据集、数据清洗、分级、数据和特征工程。

建模

这是生命周期中最令人兴奋的阶段之一。数据集通常被分割成测试、训练和验证集。要使用的算法被确定。模型被不断建立和评估。不同模型的结果根据成功和测试标准进行解释。这是一个迭代的阶段,一直持续到结果达到预期的基准。

评估

评估阶段主要集中在根据商业目标评估模型。这个评估与前一阶段的评估不同,前一阶段的评估是对模型进行技术上的评估。整体评估包括验证和衡量成功标准和定义的指标。

部署

在这个阶段,模型被部署并投入使用。机器学习模型通常与产品和应用程序集成和耦合。这些可以是网络、桌面或移动应用程序。机器学习模型也被部署在设备上,如今在边缘计算领域越来越被采用和普及。

摘要

本文的内容参考了CRISP-DM流程。还有其他已知的数据科学和数据挖掘项目的流程,如SEMMA、数据库中的知识发现(KDD)等。随着敏捷和规模化敏捷方法的广泛采用,这些数据科学生命周期流程大多是为满足特定的业务需求而定制的,重点是迭代和增量开发和可见性。

参考文献

www.datascience-pm.com/