Spark 入门

12,577 阅读1分钟

image.png

Spark 入门

image.png

hadoop 一大堆东西

storm 或者用阿里的jstorm

impala 和 hive 做交互

spark 特点

轻量级快速计算引擎

spark 仅仅是一个分布式计算引擎

hadoop mapreduce 计算, yarn 资源调度, hdfs 文件存储

mapreduce 进程级别

诞生于博士论文,开源论文

spark 特点

速度快,100X内存 memory ,10X 磁盘 disk

线程模型,线程池,cache,

支持多种语言

通用 易用 hdfs兼容

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png