用于决策智能（DI）的数据管道DZone>大数据专区>用于工程决策智能的数据管线用于工程决策智能的数据管线建立正确的

数据科学已经通过自动化达到了顶峰。数据科学项目的所有阶段--如数据清理、模型开发、模型比较、模型验证和部署--都是完全自动化的，可以在几分钟内执行，而早些时候这需要几个月的时间。机器学习（ML）不断致力于调整模型，以提高预测能力。建立正确的数据管道，为你所有的数据科学、人工智能（AI）、ML和决策智能项目提供源源不断的新数据是极其关键的。决策智能（DI）是继数据科学之后的下一个主要的数据驱动的颠覆性创新的决策技术。它是。

未来性- 对ML结果进行建模，以预测社会、环境和商业影响。
整体性--有意义地整合了管理和行为的视角。
现实的--对所有的背景变量和现实生活中的限制进行建模。

因此，对于DI项目来说，拥有一个强大的数据管道更为重要。他们需要以正确的速度持续流入正确的数据，以存储在正确的容器中，随后为模型开发进行正确处理，以产生可操作的见解。

图1：企业决策智能

开发数据管道

开发数据管道的第一阶段是数据整合：摄入各种客户、产品和使用数据进行处理和分析。数据整合有两个阶段。最基本的步骤是确定内部数据的正确来源--包括物联网、CRM、ERP、OLAP、Excel报告等，以及外部数据，如Facebook、Twitter和统计数据库。数据整合的第二步是通过批处理和流处理收集半结构化、非结构化和结构化数据。

通过整合获得数据后，下一阶段是数据工程，包括存储和处理数据以进一步开发模型。由文件和元数据组成的对象可以上载到任何可以存储各种非结构化、分层和结构化数据的容器中。处理存储的数据包括数据消毒、特征工程，以及在通过ML、深度学习和自然语言处理技术将数据发送至模型开发之前，对数据进行训练和测试的分割。

图2：决策智能的数据工程框架

在最后一个阶段，数据被送去进行决策智能模型开发。一些最流行的DI建模技术包括决策建模和模拟、优化和博弈论、系统动力学和系统建模、敏感性和情景分析、知识管理、隐马尔科夫模型和马尔科夫链蒙特卡洛。先进的建模技术，如有向无环图的量子贝叶斯网络（QBNs），洛伦兹吸引子的数据驱动预测，以及智能增强在ML结果的基础上工作，以弄清决策对社会、商业和环境的影响。最后但并非最不重要的是，最终的结果可以通过交互式仪表盘呈现，可以很容易地用于管理决策。

数据架构在建立DI的数据管道方面至关重要。传统上，结构化数据被存储在数据仓库中，用于数据发现和查询。随着半结构化点击流数据的出现，数据湖成为持有大量原始数据的自然选择。数据湖库是一种混合方法，其中仓库层位于数据湖的顶部，以存储结构化和非结构化数据。在处理完数据后，经过特征设计的数据被存储在数据集市中，然后再流向DI引擎进行模型开发。

图3：数据架构

下面是一个平台架构的实例，展示了应用解决方案开发和使用场景的抽象程度的提高。

图4：数据平台架构

为了说明云中的这个架构，图5代表了AWS生态系统上的一个数据管道，它显示了从数据提取到仪表盘的每一步中适用的AWS组件。仪表盘可以通过任何非AWS工具如Tableau完成。

图5：AWS中的关键数据工程组件

对数据质量、治理、隐私和安全的考虑

在为任何DI项目设置数据管道时，优先考虑数据质量、数据治理、数据隐私和安全问题是至关重要的。

数据质量

可靠和一致的输入数据对于消除错误和偏见至关重要。因此，无可挑剔的数据质量对任何DI项目来说都是神圣不可侵犯的。

以下检查点可用于衡量数据质量。

完整性--是否所有必要的数据都可以得到和获取？
一致性--在持有数据实例的不同系统中，数据的一致性如何？
有效性--衡量一个值是否符合预先定义的标准。
准确性--数据呈现的正确性和准确性如何？
独特性--对已确定的数据项目的重复性的离散测量。
及时性- 衡量预期数据的时间与提供数据的时间之间的时间。

数据管理

任何成功的DI项目的基石都是在正确构思问题和估计可操作的见解的影响方面的合作。数据治理框架通过将责任分配给人员、流程、贡献者和技术，使决策更容易实现。就数据治理的指挥和控制而言，该框架指定了一些员工作为数据管理人。他们的职责包括确定以下问题的答案。

数据在哪里？
谁应该访问它？
数据包含什么？
数据的质量是什么？
数据如何能坚持合规？
数据的安全性如何？

数据隐私和安全

数据隐私对任何DI项目都至关重要，企业必须确保遵守所有相关的数据保护法律和法规，如PDP和GDPR（旨在保护安全、隐私、PII等）。在整个数据收集、处理、共享和删除的过程中，隐私也应得到保证。数据安全问题可以通过以下方式解决。

授权- 实施措施，防止第三方的任何未经授权的访问。
加密--在飞行和休息时对数据进行加密，对PII进行屏蔽。
惩罚--对违反数据安全的行为采取并执行巨大的惩罚。

分别的想法

随着我们的前进，决策智能将首先把数据科学项目的ML成果与企业联系起来，然后与整个社会联系起来。数据整合和数据工程是企业DI项目的关键组成部分。数据湖和数据湖库都已成为业界的自然选择，因为它们可以存储易于检索和建模的半结构化和非结构化数据。除了传统的ML模型，许多复杂的优化技术被用于开发DI模型。云原生计算无缝地推动了从数据整合和模型开发到可视化和决策的互动仪表盘的整个操作。

最终，一个成功的决策智能项目的关键归结为确保数据质量、治理、隐私和安全在整个过程的每一步都是优先事项。