面试软实力

196 阅读3分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第8天

juejin.cn/post/716729…

自我介绍

  1. 姓名

  2. 哪里人

  3. 在哪工作、实习过

  4. 应聘贵司的职位

项目相关

  1. 项目名称

  2. 项目描述

  3. 数据源:比如画像系统日志文件/RDBMS数据采集

  4. 达成业务目标:比如通过构建指标体系进行数据支撑

  5. 数据量+集群规划

  6. 项目架构

  7. 绘制自己的项目架构图

  8. 绘制组件结构图

  9. 讲解自己对实时架构+离线架构的理解

  10. 数据全靠流程的工作包含哪些?:采集-清洗-加工-分析-建模

  11. 数仓的表有哪些、举例一些字段、如何进一步抽取

  12. 项目职责

  13. 本人负责的内容,至少一项参与

  14. 多写数据指标分析的任务,少写数据采集导入导出

  15. 日常任务

  16. 数据采集接入

  17. 业务数据分析、通过写SQL完成日常统计,技术栈:Hive&Spark SQL

  18. 多部门数据支持

面试全流程概述

  1. 自我介绍
  2. 我叫XXXX 毕业于XXXX XXX专业之前从事于大数据数仓开发 目前在XXX信息科技有限公司任职,来咱们公司也是 想看看机会。
  3. 项目介绍
  4. 我们项目是做XX的,我们数据源有两个:
  5. 后端业务交互数据,包括XX、XX、XX等数据,存储在业务MySql数据库中,日常使用Sqoop去做数据接入HDFS。
  6. 另一部分是APP前端埋点数据,包括用户在客户端使用时产生的日志数据等,存储在服务器上。我们主要使用Flume去采集数据到Hdfs进行处理。
  7. 针对后端数据,我们主要是直接接入后端数据进入Hdfs构建数据仓库的ODS层,针对LogFile的数据,我们主要在接入后进行质量评估,以及相关数据的预处理,处理缺失值、Null值等数据、在处理完成后,进入数据仓库ODS层。
  8. 预处理完成后,逐步进行ODS->DWD->DWS->ADS的数据仓库层级构建。
  9. 这里主要讲解下数据仓库相关的理论
  10. ODS层、DWD层、DWS层、ADS层分别存放什么数据、为什么要划分层级?
  11. 在这里补充几个技术难点问题,并讲讲如何解决问题的?
  12. 技术点概述
  13. 订单拉链表技术
  14. 数据仓库外部表/内部表/分区表/分痛表
  15. Hive相关的分析函数应用
  16. Hive高阶的性能调优应用
  17. 项目中出现的问题
  18. 复杂字段使用自定义UDF和UDTF解析和调试
  19. Sqoop中导入导出Null存储一致性的问题
  20. Flume上传文件到HDFS时出现大量小文件
  21. 多Sqoop脚本协同工作,数据依赖问题