大数据专业术语（面试篇）特别说明：本文续更。 1、RDBMS ：关系型数据库 2、Prometheus、Grafana

特别说明：本文续更。

1、RDBMS ：关系型数据库

2、Prometheus、Grafana ：都是组件监控

3、工作流,其实也调度工具（常用）：azkaban、oozie、airflow

4、日志区分：行为日志、内容日志、业务数据

行为日志：用户与平台交互产生的数据

业务日志：是由公司服务端业务系统`产生的数据

日内日志：公司在不同的业务需求产生的

5、关于二次开发编写Flume Interceptor的原因

hive是可以自动识别json格式的message，但是无法识别base64加密的message。需要开发一个Flume Interceptor进行解码

6、sparkstreaming和structured stareaming

Spark Streaming是spark初代流处理框架，使用的微批的形式来进行流处理，每个时间间隔内的数据为一个RDD，源源不断对RDD进行处理来实现流式计算。

Structured Streaming：

采用无界的Table的概念，流数据相当于往一个表上不断的去追加行。基于Spark SQL引擎来实现。使用大多数的Spark SQL的函数。

包含时间戳

7、Process Time : 流处理引擎接受到数据的时间

8、Event Time ：事件真正发生的时间

9、维度：描述事务本身的特征或属性。相当于Java (MVC)的Model。JavaBean

10、指标：具体的数值。比如新闻的浏览量、点击率、页面的停留市场、新增用户输、留存率

11、事件分析：事件用来记录或者各种用户行为。

12、留存分析：

分析用户活跃度用户参与度的模型。一般统计是发生了某行为的事件用户中，其中有多少又发生了后续的某种行为事件。

涉及到RR（留存率）：RR(Retention Rate)表示留存率，要动手自己设计一个retention函数哦！

13、漏斗分析模型：

1、漏斗步骤；

漏斗的时间范围；

3.漏斗的窗口期

14、数仓分层

ODS层 ：数据原始层

Data Warehouse(dw)层：数据集市层

DWD(Data Warehouse Detail)明细数据层：一般保持和ODS层一样的数据力度

DWB（Data Warehouse Base）基础数据层，轻度聚合，中间表，提供公共指标的复用性

DWS（Data Warehouse Service）数据服务层，按照业务划分，提供数据查询服务

15、OLTP vsOLAP

OLTP：淘宝、天猫。后端

OLAP：大数据。数据端

16、DAU(Daily Active User)预测

DAU(Daily Active User)预测。假设给定DNU（Daily New User）每日新增用户，我们未来某一天的DAU能达到多少？比如未来100天我们能有多少活跃用户。应该由什么组成呢？

DAU：由当日新增用户和历史每天的新增用户在当日的留存用户组成的。举个栗子，比如我们的产品在1月1日首发，新增1000人，1月2日新增1500人，那么1月2日的DAU应用是1500+666（1000）=2166人，1月3日新增用户2000人，1月1日和1月2日的用户中在1月3日中还活跃的用户由1111人=2000+1111=3111人。

17、LeastSq:最小二乘法

利用样本数据拟合函数，要使用到最小二乘