一、基础
1、数据存储、数据计算
2、spark、flink
3、着重讲spark,没有存储部门,只有计算部分,依赖其他组件
4、离线计算引擎,hadoop中的map reduce,处理历史数据
5、spark核心部门是spark core,所有计算都是spark core计算,是离线计算引擎
6、spark体系汇总没有实时计算,都是非实时计算
7、会了spark core 再学习其他组件会非常简单
8、map reduce基于I/O计算,spark flink基于内存计算,会比较快
9、实时:storm、spark streaming、flink datastream api,秒级计算,如果是ms级的就不能用spark streaming
10、数据集市,本质是数据库(oracle或大数据构建),面向主题,面向最终用户的需求,销售部门或者HR部门,构建两个数据集市,分别提供给他们
11、关系型数据库里面通过SQL语句,查询操作分析、处理以后放到数据集市当中, 提供给最终用户
12、flink cdc 支持实时捕获cdc功能
13、
14、京东数据总线,数据直通车
15、spark是一个计算引擎
二、Spark基础
特点:
1、快:基于内存,存在问题--掉电或者内存崩溃,检查点(目录) 2、易用:支持多种编程语言 3、兼容hadoop:hdfs(当成linux即可,以文件方式保存数据)、yarn,spark运行在yarn之上,spark on yarn 4、完善的生态圈系统 5、spark core,执行引擎、发动机,离线计算引擎 ifeve.com/tag/spark%E…
6、每半小时统计过去一个小时的订单,实时计算,spark streaming,依然是spark core的离线计算,不能用于实时性非常高的场景
7、单元最短距离算法,算导航路径,比一定是距离最短,但是权重最少
8、DSL语句使用
9、
10、数据模型:RDD
11、
12、spark最新的是3.x,虚拟机里装的是3.0版本
13、spark架构
14、
15、spark操作
bin: sbin conf:核心配置文件