特别说明:本文续更。
1、RDBMS :关系型数据库
2、Prometheus、Grafana :都是组件监控
3、工作流,其实也调度工具(常用):azkaban、oozie、airflow
4、日志区分:行为日志、内容日志、业务数据
行为日志:用户与平台交互产生的数据
业务日志:是由公司服务端业务系统`产生的数据
日内日志:公司在不同的业务需求产生的
5、关于二次开发编写Flume Interceptor的原因
hive是可以自动识别json格式的message,但是无法识别base64加密的message。需要开发一个Flume Interceptor进行解码
6、sparkstreaming和structured stareaming
Spark Streaming是spark初代流处理框架,使用的微批的形式来进行流处理,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流式计算。
Structured Streaming:
采用无界的Table的概念,流数据相当于往一个表上不断的去追加行。基于Spark SQL引擎来实现。使用大多数的Spark SQL的函数。
包含时间戳
7、Process Time : 流处理引擎接受到数据的时间
8、Event Time :事件真正发生的时间
9、维度:描述事务本身的特征或属性。相当于Java (MVC)的Model。JavaBean
10、指标:具体的数值。比如新闻的浏览量、点击率、页面的停留市场、新增用户输、留存率
11、事件分析:事件用来记录或者各种用户行为 。
12、留存分析:
分析用户活跃度用户参与度的模型。一般统计是发生了某行为的事件用户中,其中有多少又发生了后续的某种行为事件。
涉及到RR(留存率):RR(Retention Rate)表示留存率,要动手自己设计一个retention函数 哦!
13、漏斗分析模型:
1、漏斗步骤;
- 漏斗的时间范围;
3.漏斗的窗口期
14、数仓分层
ODS层 :数据原始层
Data Warehouse(dw)层 :数据集市层
DWD(Data Warehouse Detail)明细数据层:一般保持和ODS层一样的数据力度
DWB(Data Warehouse Base)基础数据层,轻度聚合,中间表,提供公共指标的复用性
DWS(Data Warehouse Service)数据服务层,按照业务划分,提供数据查询服务
15、OLTP vsOLAP
OLTP:淘宝、天猫。后端
OLAP:大数据。数据端
16、DAU(Daily Active User)预测
DAU(Daily Active User)预测。假设给定DNU(Daily New User)每日新增用户,我们未来某一天的DAU能达到多少?比如未来100天我们能有多少活跃用户。应该由什么组成呢?
DAU:由当日新增用户和历史每天的新增用户在当日的留存用户组成的。举个栗子,比如我们的产品在1月1日首发,新增1000人,1月2日新增1500人,那么1月2日的DAU应用是1500+666(1000)=2166人,1月3日新增用户2000人,1月1日和1月2日的用户中在1月3日中还活跃的用户由1111人=2000+1111=3111人。
17、LeastSq:最小二乘法
利用样本数据拟合函数,要使用到最小二乘