sparksql（1）——Dataframesparksql类似于hive，但它基于内存，而hive基于mapreduc

sparksql类似于hive，但它基于内存，而hive基于mapreduce，而mapreduce又基于磁盘，所以spark处理数据快得多。
sparksql不止有sql语句，现在他还有Dataframe的API，Dataframe比写RDD要快。dataframe将非结构化数据schema化。
sparksql类比于hive可以发现，hive在mapreduce上做了一个框架，而sparksql是在spark core里的rdd里面多出来的一个框架，并且还多了dataframe这样的简便框架，dataframe最终也是转换为RDD的操作
前提：打开spark—master和spark—slave（前面有讲过，我们用的是standalone模式，由master和worker去操作driver和executer）
（1）首先打开jupyter
在这里插入图片描述

（2）创建session对象
在这里插入图片描述

（3）查看任务
通过8088端口查看
在这里插入图片描述
（4）创建dataframe

（5）查看结果
在这里插入图片描述
可以见到dataframe可以将数据结构化，方便以后对数据的操作