面试软实力开启掘金成长之旅！这是我参与「掘金日新计划 · 12 月更文挑战」的第8天 https://juejin.cn

开启掘金成长之旅！这是我参与「掘金日新计划 · 12 月更文挑战」的第8天

自我介绍

自我介绍
我叫XXXX 毕业于XXXX XXX专业之前从事于大数据数仓开发目前在XXX信息科技有限公司任职，来咱们公司也是想看看机会。
项目介绍
我们项目是做XX的，我们数据源有两个：
后端业务交互数据，包括XX、XX、XX等数据，存储在业务MySql数据库中，日常使用Sqoop去做数据接入HDFS。
另一部分是APP前端埋点数据，包括用户在客户端使用时产生的日志数据等，存储在服务器上。我们主要使用Flume去采集数据到Hdfs进行处理。
针对后端数据，我们主要是直接接入后端数据进入Hdfs构建数据仓库的ODS层，针对LogFile的数据，我们主要在接入后进行质量评估，以及相关数据的预处理，处理缺失值、Null值等数据、在处理完成后，进入数据仓库ODS层。
预处理完成后，逐步进行ODS->DWD->DWS->ADS的数据仓库层级构建。
这里主要讲解下数据仓库相关的理论
ODS层、DWD层、DWS层、ADS层分别存放什么数据、为什么要划分层级？
在这里补充几个技术难点问题，并讲讲如何解决问题的？
技术点概述
订单拉链表技术
数据仓库外部表/内部表/分区表/分痛表
Hive相关的分析函数应用
Hive高阶的性能调优应用
项目中出现的问题
复杂字段使用自定义UDF和UDTF解析和调试
Sqoop中导入导出Null存储一致性的问题
Flume上传文件到HDFS时出现大量小文件
多Sqoop脚本协同工作，数据依赖问题