开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第8天
自我介绍
-
姓名
-
哪里人
-
在哪工作、实习过
-
应聘贵司的职位
项目相关
-
项目名称
-
项目描述
-
数据源:比如画像系统日志文件/RDBMS数据采集
-
达成业务目标:比如通过构建指标体系进行数据支撑
-
数据量+集群规划
-
项目架构
-
绘制自己的项目架构图
-
绘制组件结构图
-
讲解自己对实时架构+离线架构的理解
-
数据全靠流程的工作包含哪些?:采集-清洗-加工-分析-建模
-
数仓的表有哪些、举例一些字段、如何进一步抽取
-
项目职责
-
本人负责的内容,至少一项参与
-
多写数据指标分析的任务,少写数据采集导入导出
-
日常任务
-
数据采集接入
-
业务数据分析、通过写SQL完成日常统计,技术栈:Hive&Spark SQL
-
多部门数据支持
面试全流程概述
- 自我介绍
- 我叫XXXX 毕业于XXXX XXX专业之前从事于大数据数仓开发 目前在XXX信息科技有限公司任职,来咱们公司也是 想看看机会。
- 项目介绍
- 我们项目是做XX的,我们数据源有两个:
- 后端业务交互数据,包括XX、XX、XX等数据,存储在业务MySql数据库中,日常使用Sqoop去做数据接入HDFS。
- 另一部分是APP前端埋点数据,包括用户在客户端使用时产生的日志数据等,存储在服务器上。我们主要使用Flume去采集数据到Hdfs进行处理。
- 针对后端数据,我们主要是直接接入后端数据进入Hdfs构建数据仓库的ODS层,针对LogFile的数据,我们主要在接入后进行质量评估,以及相关数据的预处理,处理缺失值、Null值等数据、在处理完成后,进入数据仓库ODS层。
- 预处理完成后,逐步进行ODS->DWD->DWS->ADS的数据仓库层级构建。
- 这里主要讲解下数据仓库相关的理论
- ODS层、DWD层、DWS层、ADS层分别存放什么数据、为什么要划分层级?
- 在这里补充几个技术难点问题,并讲讲如何解决问题的?
- 技术点概述
- 订单拉链表技术
- 数据仓库外部表/内部表/分区表/分痛表
- Hive相关的分析函数应用
- Hive高阶的性能调优应用
- 项目中出现的问题
- 复杂字段使用自定义UDF和UDTF解析和调试
- Sqoop中导入导出Null存储一致性的问题
- Flume上传文件到HDFS时出现大量小文件
- 多Sqoop脚本协同工作,数据依赖问题