大数据专业术语(面试篇)

170 阅读3分钟

特别说明:本文续更。

1、RDBMS :关系型数据库

2、Prometheus、Grafana :都是组件监控

3、工作流,其实也调度工具(常用):azkaban、oozie、airflow

4、日志区分:行为日志、内容日志、业务数据

行为日志:用户与平台交互产生的数据

业务日志:是由公司服务端业务系统`产生的数据

日内日志:公司在不同的业务需求产生的

5、关于二次开发编写Flume Interceptor的原因

hive是可以自动识别json格式的message,但是无法识别base64加密的message。需要开发一个Flume Interceptor进行解码

6、sparkstreaming和structured stareaming

Spark Streaming是spark初代流处理框架,使用的微批的形式来进行流处理,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流式计算。

Structured Streaming:

采用无界的Table的概念,流数据相当于往一个表上不断的去追加行。基于Spark SQL引擎来实现。使用大多数的Spark SQL的函数。

包含时间戳

7、Process Time : 流处理引擎接受到数据的时间

8、Event Time :事件真正发生的时间

9、维度:描述事务本身的特征或属性。相当于Java (MVC)的Model。JavaBean

10、指标:具体的数值。比如新闻的浏览量、点击率、页面的停留市场、新增用户输、留存率

11、事件分析:事件用来记录或者各种用户行为 。

12、留存分析:

分析用户活跃度用户参与度的模型。一般统计是发生了某行为的事件用户中,其中有多少又发生了后续的某种行为事件。

涉及到RR(留存率):RR(Retention Rate)表示留存率,要动手自己设计一个retention函数 哦!

13、漏斗分析模型:

1、漏斗步骤;

  1. 漏斗的时间范围;

3.漏斗的窗口期

 14、数仓分层

ODS层数据原始层

Data Warehouse(dw)层 :数据集市层

DWD(Data Warehouse Detail)明细数据层:一般保持和ODS层一样的数据力度

DWB(Data Warehouse Base)基础数据层,轻度聚合,中间表,提供公共指标的复用性

DWS(Data Warehouse Service)数据服务层,按照业务划分,提供数据查询服务

15、OLTP vsOLAP

OLTP:淘宝、天猫。后端

OLAP:大数据。数据端

16、DAU(Daily Active User)预测

DAU(Daily Active User)预测。假设给定DNU(Daily New User)每日新增用户,我们未来某一天的DAU能达到多少?比如未来100天我们能有多少活跃用户。应该由什么组成呢?

​    DAU:由当日新增用户和历史每天的新增用户在当日的留存用户组成的。举个栗子,比如我们的产品在1月1日首发,新增1000人,1月2日新增1500人,那么1月2日的DAU应用是1500+666(1000)=2166人,1月3日新增用户2000人,1月1日和1月2日的用户中在1月3日中还活跃的用户由1111人=2000+1111=3111人。

 17、LeastSq:最小二乘法

利用样本数据拟合函数,要使用到最小二乘