本文已参与「新人创作礼」活动,一起开启掘金创作之路。
OnLine Analysis Processing :联机分析处理
功能
支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果
原理
OLAP联机分析首先是把数据预处理成数据立方(Cube),并把有可能的汇总都预先算出来(即预聚合处理),OLAP联机分析最基本的工作就是对数据方(Cube)的操作
数据方的层次划分
1.维度(Dimension):用户观察数据的特定角度;数据的属性
2.维度的层次(Level):属性的进一步描述
3.维度的成员(Member):维度的一个取值
4.度量(Measure):多维数组的取值;维度成员的组合
数据方的操作
1.向下钻取(Drill-down):减少维数;多属性归为同一属性
2.向上钻取(Drill-up):增加新的维度;属性细致划分切片和切块:在一部分维上选定值后,关心度量数据在剩余维上的分布
3.切片(Slice):选定特定的维度的维度成员进行分析;
4.切块(Dice):选择维度中特定区间的数据;
5.旋转(Pivot):重新安排维的放置;
总结
构建一个多维数据模型前需要考虑:哪些字段用于维度;哪些字段用于统计指标;使用什么样的规则来对数据进行聚合;用户经常使用的组合查询;排序规则;
大数据分析架构在这个巨大Cube的支持下,直接把维度和度量的生成交给咱们数据人 ,由数据人自定义好维度和度量之后,Hadoop会将业务的维度和度量直接翻译成MapReduce运行,并最终生成业务报表。
本实验数据方示意图:
1.数据准备
本次实验数据库层次:kettle{user,product,orders}
注:插入数据时,每段sql语句(除#号注释行以外)都可以整段复制粘贴执行,无须逐句复制
2.将mysql表连接到kettle
表输入设置
流查询设置
设置前需要将组件连接好,按住“shift”并鼠标左键,将“表输入”与“流查询”及“文本文件输出”相连
文本文件输出设置
注:启动前做修改注意保存再运行
结果
注: 下面的预览是表的全部字段,生成在“/opt/kettle/data-integration”下的“test_result_file”显示的是理想数据
如果作业中的步骤之间报错,查看相关步骤的日志并做出修改即可