数据仓库分享想知道靓女征友会被多少人加好友么？想知道公司食堂的DAU日活么？这些我都无法告诉你，因为我也不知

想知道靓女征友会被多少人加好友么？
想知道公司食堂的DAU日活么？

这些我都无法告诉你，因为我也不知道

不过如果你对这些问题感兴趣，那么你可能会希望了解下这些数据的可能来源——数据仓库

举个栗子

小美：前两天我和闺蜜们在bbs发征友贴好多人加我们微信呀，但是有人反馈说加好友的频率太高加不上，呜呜呜，哥哥你帮我看看到底有多少人加我们呀

开发小哥哥：好的！待我查找下数据！

开始开发

这个任务很简单，我要把所有人的加好友数量都计算出来，然后再过滤下她们的id就好了

第一步：找到原始数据表

咦？怎么原始数据表这么多，需要apply_friend member等多张表，而且涉及到的表字段也很多，还有很多无效数据，看来我需要增加一步清洗数据的工作

apply_friend表

id	apply_name	applied_name
1	诸葛钢铁	小美
2	于小谦	小可爱
3	null	小美
4	朴一生	小红
5	朴一生	小美
6	朴一生	小可爱

member表

id	name
1	诸葛钢铁
2	于小谦
3	小美
4	null
5	小红
6	朴一生

第二步：清洗原始数据产出清洗数据表

SELECT * FROM apply_friend 
WHERE apply_name is not null

查询结果存入数据表 clean_apply_friend

id	apply_name	applied_name
1	诸葛钢铁	小美
2	于小谦	小可爱
4	朴一生	小红
5	朴一生	小美
6	朴一生	小可爱

SELECT * FROM member 
WHERE name is not null

查询结果存入数据表 clean_member

id	name
1	诸葛钢铁
2	于小谦
3	小美
5	小红
6	朴一生

第三步：进行SQL聚合

SELECT applied_name
       ,COUNT(applied_name) AS cnt
FROM(
  SELECT clean_apply_friend.id AS id 
        ,clean_apply_friend.apply_name AS apply_name
        ,clean_apply_friend.applied_name AS applied_name
  FROM clean_apply_friend 
  JOIN clean_member 
  ON clean_apply_friend.applied_name = clean_member.name
)
GROUP BY applied_name

查询结果存入数据表 result

applied_name	cnt
小美	2
小红	1

第四步：为了更方便的使用图形化工具查找，我最好再加一个数据表用于出库，可以使用BI工具

SELECT applied_name
       ,cnt
FROM result

查询结果存入数据表 final_result 表，并且配置出库

什么是数据仓库

如果把刚刚每一步计算出来的数据表连起来，会看到下面的结构

如果我们给他们加上一些名词，就会发现这是一个比较清晰的层级结构

APP（Application）：数据应用层
DM（Data Mart）：数据集市层
DW（Data Warehouse）：数据仓库层
ODS（Operational Data Store）：数据运营层

如果DM数据仓库层不止2个数据表，还有更多可归类的数据表，那么就会形成主题

这就是数据仓库的雏形！

真实的数据仓库

小美：小哥哥，你这个数据不太够，我想知道我的每日新增好友添加数量和从我使用微信以来每日累计以前的好友添加数量，可以帮帮我么

开发小哥哥：好的！待我查找下数据！

上述小美的表达才是更接近真实的数据需求，通常数据需求会有比较常见的2大系列，分别是：

每日新增数据：

11.17 加好友的数量是5个
11.18 加好友的数量是6个

每日累计数据：

从创建微信以来到11.16加好友的数量是95个
从创建微信以来到11.17加好友的数量是100个
从创建微信以来到11.18加好友的数量是106个

可以看到数据关系 95 + 5 = 100，100 + 6 = 106

如何计算每日新增和每日累计

为了完成上述两种统计数据，就要求线上数据必须每日同步增量数据，并根据数据日期ds字段进行区分

apply_friend 表

ds	id	apply_name	applied_name
20210901	1	诸葛钢铁	小美
20210901	2	于小谦	小可爱
20210901	3	null	小美
20210901	4	朴一生	小红
20210902	5	朴一生	小美
20210902	6	朴一生	小可爱

可以看到前 4 条数据都是2021年9月1日出现的，后 2 条数据是2021年9月2日出现的

根据这样的表计算出每日新增的数据很容易，用ds作为查询条件进行聚合即可，比如计算9月1日用户的申请的数量

SELECT COUNT(*) 
FROM apply_friend 
WHERE ds = 20210902
GROUP BY applied_name

而计算每日累计数据时，更建议清洗出一张全量数据表，并用其直接进行计算

什么是全量数据表

所谓的全量数据表指的是每天都存储从原始数据产生以来的所有数据，尤其是当存在状态变化时，全量数据表的存在尤为重要

比如：

apply_friend 表

ds	id	apply_name	applied_name	status
20210901	1	朴一生	小美	申请中
20210901	2	诸葛钢铁	小美	申请中
20210902	3	诸葛钢铁	小美	已查看
20210902	4	朴一生	小红	申请中
20210903	5	诸葛钢铁	小美	已拒绝

对应的全量数据表为：

full_apply_friend 表

ds	id	apply_name	applied_name	status
20210901	1	朴一生	小美	申请中
20210901	2	诸葛钢铁	小美	申请中
20210902	1	朴一生	小美	申请中
20210902	3	诸葛钢铁	小美	已查看
20210902	4	朴一生	小红	申请中
20210903	1	朴一生	小美	申请中
20210903	4	朴一生	小红	申请中
20210903	5	诸葛钢铁	小美	已拒绝