sparksql(1)——Dataframe

189 阅读1分钟

sparksql类似于hive,但它基于内存,而hive基于mapreduce,而mapreduce又基于磁盘,所以spark处理数据快得多。
sparksql不止有sql语句,现在他还有Dataframe的API,Dataframe比写RDD要快。dataframe将非结构化数据schema化。
sparksql类比于hive可以发现,hive在mapreduce上做了一个框架,而sparksql是在spark core里的rdd里面多出来的一个框架,并且还多了dataframe这样的简便框架,dataframe最终也是转换为RDD的操作
前提:打开spark—master和spark—slave(前面有讲过,我们用的是standalone模式,由master和worker去操作driver和executer)
(1)首先打开jupyter
在这里插入图片描述

(2)创建session对象
在这里插入图片描述

(3)查看任务
通过8088端口查看
在这里插入图片描述
(4)创建dataframe
在这里插入图片描述

(5)查看结果
在这里插入图片描述
可以见到dataframe可以将数据结构化,方便以后对数据的操作