spark入门

116 阅读2分钟

一、基础

1、数据存储、数据计算

2、spark、flink

3、着重讲spark,没有存储部门,只有计算部分,依赖其他组件

4、离线计算引擎,hadoop中的map reduce,处理历史数据

5、spark核心部门是spark core,所有计算都是spark core计算,是离线计算引擎

6、spark体系汇总没有实时计算,都是非实时计算

7、会了spark core 再学习其他组件会非常简单

8、map reduce基于I/O计算,spark flink基于内存计算,会比较快

9、实时:stormspark streamingflink datastream api,秒级计算,如果是ms级的就不能用spark streaming

10、数据集市,本质是数据库(oracle或大数据构建),面向主题,面向最终用户的需求,销售部门或者HR部门,构建两个数据集市,分别提供给他们

11、关系型数据库里面通过SQL语句,查询操作分析、处理以后放到数据集市当中, 提供给最终用户

12、flink cdc 支持实时捕获cdc功能

13、

image.png

14、京东数据总线,数据直通车

15、spark是一个计算引擎

二、Spark基础

特点:

1、快:基于内存,存在问题--掉电或者内存崩溃,检查点(目录) 2、易用:支持多种编程语言 3、兼容hadoop:hdfs(当成linux即可,以文件方式保存数据)、yarn,spark运行在yarn之上,spark on yarn 4、完善的生态圈系统 5、spark core,执行引擎、发动机,离线计算引擎 ifeve.com/tag/spark%E…

6、每半小时统计过去一个小时的订单,实时计算,spark streaming,依然是spark core的离线计算,不能用于实时性非常高的场景

7、单元最短距离算法,算导航路径,比一定是距离最短,但是权重最少

8、DSL语句使用

9、

image.png

10、数据模型:RDD

11、

image.png

12、spark最新的是3.x,虚拟机里装的是3.0版本

13、spark架构

image.png 14、

image.png

15、spark操作

bin: sbin conf:核心配置文件