【Deepin-15.11】使用【Kettle】【OLAP联机分析处理】

244 阅读2分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

OnLine Analysis Processing :联机分析处理

功能

支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果

原理

OLAP联机分析首先是把数据预处理成数据立方(Cube),并把有可能的汇总都预先算出来(即预聚合处理),OLAP联机分析最基本的工作就是对数据方(Cube)的操作

数据方的层次划分

1.维度(Dimension):用户观察数据的特定角度;数据的属性

2.维度的层次(Level):属性的进一步描述

3.维度的成员(Member):维度的一个取值

4.度量(Measure):多维数组的取值;维度成员的组合

数据方的操作

1.向下钻取(Drill-down):减少维数;多属性归为同一属性

2.向上钻取(Drill-up):增加新的维度;属性细致划分切片和切块:在一部分维上选定值后,关心度量数据在剩余维上的分布

3.切片(Slice):选定特定的维度的维度成员进行分析;

4.切块(Dice):选择维度中特定区间的数据;

5.旋转(Pivot):重新安排维的放置;

总结

构建一个多维数据模型前需要考虑:哪些字段用于维度;哪些字段用于统计指标;使用什么样的规则来对数据进行聚合;用户经常使用的组合查询;排序规则;

大数据分析架构在这个巨大Cube的支持下,直接把维度和度量的生成交给咱们数据人 ,由数据人自定义好维度和度量之后,Hadoop会将业务的维度和度量直接翻译成MapReduce运行,并最终生成业务报表。

厦门大学数据库实验室:Kettle的安装和使用

本实验数据方示意图:

在这里插入图片描述

1.数据准备

本次实验数据库层次:kettle{user,product,orders}

注:插入数据时,每段sql语句(除#号注释行以外)都可以整段复制粘贴执行,无须逐句复制

在这里插入图片描述

2.将mysql表连接到kettle

在这里插入图片描述

表输入设置

在这里插入图片描述

在这里插入图片描述

流查询设置

设置前需要将组件连接好,按住“shift”并鼠标左键,将“表输入”与“流查询”及“文本文件输出”相连

在这里插入图片描述

文本文件输出设置

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

注:启动前做修改注意保存再运行

结果

在这里插入图片描述

在这里插入图片描述

注: 下面的预览是表的全部字段,生成在“/opt/kettle/data-integration”下的“test_result_file”显示的是理想数据

如果作业中的步骤之间报错,查看相关步骤的日志并做出修改即可