DAMA第十四章:大数据和数据科学

137 阅读3分钟

引言

业务却懂

原则

基本理念

1.数据科学

整合数据挖掘、统计分析、机器学习,结合数据建模,构建预测模型、探索数据内容模式。

2.数据科学的过程

3.大数据

4.大数据架构组件

5.大数据来源

6.数据湖

一种可以提取、存储、评估、分析不同类型和结构海量数据的环境。
数据湖提供:
1)数据科学家,挖掘、分析数据的环境
2)原始数据,集中存储区域,少量转换
3)数据仓库,明细历史数据,备用存储区域
4)信息记录,在线归档
5)自动化模型,识别提取流数据的环境

数据湖,作为Hadoop或其他数据存储系统、集群服务、数据转换、数据集成等,数据处理工具的是一种复合配置。
数据湖风险:数据沼泽,杂乱、不干净、不一致

7.基于服务的架构

8.机器学习

3种学习算法类型:
1)监督学习sipervised learning
2)无监督学习unsupervised learning
3)强化学习reinforcement learning

9.语义分析

自然语言处理NLP

10.数据、文本挖掘

数据挖掘data mining:特殊的分析方法,用算法解释数据中的规律。机器学习的一个分支,人工智能的一个子领域。

11.预测分析predictive analytics

12.规范分析prescriptive analytics

13.非结构化数据分析unstructured data analytics

14.运营分析operational analytics

15.数据可视化visualization

16.数据混搭data mashups

活动

定义大数据战略、业务需求

选择数据源

获得、接收数据源

制定数据假设、方法

集成、调整数据进行分析

使用模型探索数据

1.填充预测模型

2.训练模型

3.评估模型

4.创建数据可视化

部署、监控

1.揭示洞察、发现

2.使用附加数据源迭代

工具

大规模并行处理(MMP)无共享技术、架构

基于分布式文件的数据库

数据库内算法in-database algorithm

大数据云解决方案

统计计算、图形计算

数据可视化工具集

方法

解析建模

大数据建模

实施指南

战略一致性

战略交付成果管理要素:
1)信息生命周期
2)元数据
3)数据质量
4)数据采集
5)数据访问、安全性
6)数据治理
7)数据隐私
8)学习、采用
9)运营

就绪评估/风险评估

关键成功因素:
1)业务相关性
2)业务准备情况
3)经济可行性
4)原型
5)最具挑战性的决策:数据采购、平台开发、资源配置
6)数字资料存储,采购/租赁
7)满足一般需求
8)保护有专业技能的员工,留住顶尖人才
9)培养内部人才的时间可能会超过交付时间

组织与文化变迁

大数据、数据科学治理

可视化渠道管理

数据科学、可视化标准

数据安全

元数据

数据质量

度量指标

1.技术使用指标

2.加载、扫描指标

3.学习、故事场景