引言
业务却懂
原则
基本理念
1.数据科学
整合数据挖掘、统计分析、机器学习,结合数据建模,构建预测模型、探索数据内容模式。
2.数据科学的过程
3.大数据
4.大数据架构组件
5.大数据来源
6.数据湖
一种可以提取、存储、评估、分析不同类型和结构海量数据的环境。
数据湖提供:
1)数据科学家,挖掘、分析数据的环境
2)原始数据,集中存储区域,少量转换
3)数据仓库,明细历史数据,备用存储区域
4)信息记录,在线归档
5)自动化模型,识别提取流数据的环境
数据湖,作为Hadoop或其他数据存储系统、集群服务、数据转换、数据集成等,数据处理工具的是一种复合配置。
数据湖风险:数据沼泽,杂乱、不干净、不一致
7.基于服务的架构
8.机器学习
3种学习算法类型:
1)监督学习sipervised learning
2)无监督学习unsupervised learning
3)强化学习reinforcement learning
9.语义分析
自然语言处理NLP
10.数据、文本挖掘
数据挖掘data mining:特殊的分析方法,用算法解释数据中的规律。机器学习的一个分支,人工智能的一个子领域。
11.预测分析predictive analytics
12.规范分析prescriptive analytics
13.非结构化数据分析unstructured data analytics
14.运营分析operational analytics
15.数据可视化visualization
16.数据混搭data mashups
活动
定义大数据战略、业务需求
选择数据源
获得、接收数据源
制定数据假设、方法
集成、调整数据进行分析
使用模型探索数据
1.填充预测模型
2.训练模型
3.评估模型
4.创建数据可视化
部署、监控
1.揭示洞察、发现
2.使用附加数据源迭代
工具
大规模并行处理(MMP)无共享技术、架构
基于分布式文件的数据库
数据库内算法in-database algorithm
大数据云解决方案
统计计算、图形计算
数据可视化工具集
方法
解析建模
大数据建模
实施指南
战略一致性
战略交付成果管理要素:
1)信息生命周期
2)元数据
3)数据质量
4)数据采集
5)数据访问、安全性
6)数据治理
7)数据隐私
8)学习、采用
9)运营
就绪评估/风险评估
关键成功因素:
1)业务相关性
2)业务准备情况
3)经济可行性
4)原型
5)最具挑战性的决策:数据采购、平台开发、资源配置
6)数字资料存储,采购/租赁
7)满足一般需求
8)保护有专业技能的员工,留住顶尖人才
9)培养内部人才的时间可能会超过交付时间
组织与文化变迁
大数据、数据科学治理
可视化渠道管理
数据科学、可视化标准
数据安全
元数据
数据质量
度量指标
1.技术使用指标
2.加载、扫描指标
3.学习、故事场景