spark入门一、基础 1、数据存储、数据计算 2、spark、flink 3、着重讲spark，没有存储部门，只有计算

一、基础

1、数据存储、数据计算

2、spark、flink

3、着重讲spark，没有存储部门，只有计算部分，依赖其他组件

4、离线计算引擎，hadoop中的map reduce，处理历史数据

5、spark核心部门是spark core，所有计算都是spark core计算，是离线计算引擎

6、spark体系汇总没有实时计算，都是非实时计算

7、会了spark core 再学习其他组件会非常简单

8、map reduce基于I/O计算，spark flink基于内存计算，会比较快

9、实时：storm、spark streaming、flink datastream api,秒级计算，如果是ms级的就不能用spark streaming

10、数据集市，本质是数据库（oracle或大数据构建），面向主题，面向最终用户的需求，销售部门或者HR部门，构建两个数据集市，分别提供给他们

11、关系型数据库里面通过SQL语句，查询操作分析、处理以后放到数据集市当中，提供给最终用户

12、flink cdc 支持实时捕获cdc功能

13、

14、京东数据总线，数据直通车

15、spark是一个计算引擎

二、Spark基础

特点：

1、快：基于内存，存在问题--掉电或者内存崩溃，检查点（目录） 2、易用：支持多种编程语言 3、兼容hadoop：hdfs（当成linux即可，以文件方式保存数据）、yarn，spark运行在yarn之上，spark on yarn 4、完善的生态圈系统 5、spark core，执行引擎、发动机，离线计算引擎 ifeve.com/tag/spark%E…

6、每半小时统计过去一个小时的订单，实时计算，spark streaming，依然是spark core的离线计算，不能用于实时性非常高的场景

7、单元最短距离算法，算导航路径，比一定是距离最短，但是权重最少

8、DSL语句使用

9、

10、数据模型：RDD

11、

12、spark最新的是3.x,虚拟机里装的是3.0版本

13、spark架构

14、

15、spark操作

bin： sbin conf：核心配置文件