大数据面试准备（V1.0）「Offer 驾到，掘友接招！我正在参与2022春招系列活动-经验复盘，点击查看活动详情做

「Offer 驾到，掘友接招！我正在参与2022春招系列活动-经验复盘，点击查看活动详情

做个自我介绍吧：

面试官你好，我是面试咱们公司大数据开发实习岗位的xxx，曾就读于xx学校数据科学与大数据专业，2022年毕业。

曾在xx公司实习，有过3个月的Java开发经验，在学校期间做过几个比较大的大数据项目，主要负责ETL入库和数据分析，还负责数仓的部分组件搭建。

另外在校期间接过50多个课设，2～3个毕设，长期以来极大锻炼了我写代码和与人打交道的能力。

我会经常写技术博客总结学过的大数据知识，目前写了470多篇原创技术博文，曾获CSDN2021年博客之星大数据领域第一名，目前博客粉丝2w多。

我是一个抗压能力强，自我约束能力高的年轻人，期望能够成为大家的工作伙伴。

谈谈你对Hadoop的了解

Hadoop是整个大数据的基石

从结构来看，Hadoop分为HDFS，MapReduce，Yarn三大部分，其中HDFS负责数据的存储，MapReduce负责数据计算，Yarn是负责资源调度。

从整个大数据体系来看，Hadoop负责大数据的存储（主要用到HDFS），再搭配Spark或者Flink做数据处理，一般Spark+Hadoop做离线项目 Flink+Hadoop做实时项目

从版本更新来看，Hadoop3较Hadoop2优化了Shell的很多bug，新增了纠删码将原来的3倍的空间压缩为1.5倍存储提供更大的空间

（延展：HDFS细说一下， Yarn有哪三种调度）

Hive用过吗？有什么优劣势？？

Hive是建立在Hadoop基础上的离线存储海量数据的数据库

它与传统数据库不同

从存储量来看，Hive存储的数据是更大

从计算速度来看，Hive的处理速度较Mysql慢，但是当数据达到一定时，Hive的并行计算就体现出其优势

从存储位置来看，Hive存储在HDFS Mysql存储在本地磁盘

从使用场景来看，Hive用于OLAP系统即分析系统，Mysql用于OLTP系统更多跟业务有关

数据仓库的概念

数据仓库分层分为 ODS DWD DWM DWS 和APP层。

我做过基于Hive的离线教育数仓项目，主要分为三层，

其中ODS是源数据层 DW是数据仓库层 ADS是前端应用直接读取的数据源；维度表放在Dimen层。 DW层还可继续划分为DWD明细层，DWM中间层，DWS业务层。 Dimen层还可划分为高基维度表和低基维度表

数据仓库主要解决了企业做数据分析难存在数据孤岛和数据体量太大的问题，通过建立一个统一的系统仓库来解决集中存储和海量数据的计算，同时支持SQL化。

（延展：星型和雪花事实表和维度表指标和维度

学习与成长

从大二开始写博客2年时间，记录了自己的大数据学习过程，由于我会边学习边记录，目前的博文更新了完整的大数据常用组件文章，还有我做过的项目经历。

你说你乐于助人帮助同学，能不能举个例子？

我会先根据报错帮他上网搜索，然后根据错误试验，尝试解决问题，实在没办法再找其他大佬解决。

有没有学过算法？列举一些算法？

学过数据结构：数组链表栈队列二叉树

算法：递归排序二分查找

业务场景题（要有底气）：

有一张excel表怎么把它导入到数据库中？

做过的项目

目前做过的大型项目有3个

分别是基于Hive的教育数仓项目和2个基于Spark的物流项目和用户画像项目

教育数仓解决的问题：

首先，受互联网+概念，疫情影响，越来越多的教育平台机构涌现。但是由于信息的共享利用不充分，导致企业多年积累了大量数据，而因为信息孤岛的问题，一直没有对这些数据进一步挖掘分析，因此也不能给企业的管理决策层提供有效的数据支撑。

有鉴于此，我们做的这个教育大数据分析平台项目，将大数据技术应用于教育行业，用擅长分析的OLAP系统为企业经营提供数据支撑。

具体的实现思路是，先建立企业的数据仓库，把分散的业务数据预处理，其次根据业务需求从海量的用户行为数据挖掘分析，定制出多维的数据集合，形成数据集市，供各个场景主题使用，最后用BI工具，进行前端展示。

用到的技术架构包括：mysql，sqoop，基于CM的Hive，Oozie和FineBi。由于OLTP系统中数据大多存储在mysql，所以我们最终选择Sqoop作为导入导出工具，抽取数据到数仓，并使用基于CM管理的Hive进行数据清洗＋分析，然后sqoop导出到mysql，最后用FineBI展示OLAP的数据分析结果。

所以，我们的技术解决了企业的三大痛点。一是数据量太大问题，传统数据库无法满足；二是系统多，数据分散问题，无法解决数据孤岛问题；三是，统计工作量太大，分析难度高问题，无法及时为企业提供数据参考。

物流项目背景：

本项目基于一家大型物流公司研发的智慧物流大数据平台。该物流公司是国内综合性快递、物流服务商，并在全国各地都有覆盖的网点。业务规模:经过多年的积累、经营以及布局，拥有大规模的客户群，日订单达上千万。如此规模的业务数据量，传统的数据处理技术已经不能满足企业的经营分析需求。

针对以上的物流企业痛点，我们给出对应的大数据架构解决方案：数据源：关系型数据库Oracle和MySQL 采集：OGG和Canal分别将Oracle和MySQL的增量数据同步到Kafka集群存储：ETL计算之后分别存储到kudu，Elasticsearch，ClickHouse中计算引擎：处理数据使用StructuredStreaming 技术亮点:该项目具有完整Lambda 架构系统，有离线业务、也有实时业务 ClickHouse实时存储、计算引擎Kudu + Impala准实时分析系统以企业主流的Spark生态圈为核心技术，例如：Spark、Spark SQL、structured Streaming Elasticsearch 全文检索 SpringCloud 搭建数据服务

用户画像项目背景

用户画像应用领域较为广泛，适合于各个产品周期，从新用户的引流到潜在用户的挖掘、从老用户的培养到流失用户的回流等。通过挖掘用户兴趣、偏好、人口统计特征，可以直接作用于提升营销精准度、推荐匹配度，最终提升产品服务和企业利润。还包括广告投放、产品布局和行业报告等。

职业规划：

未来10年在大数据领域深入耕耘，深入在数据中台数据治理数据挖掘等领域学习，让数据更有商业价值，数据成为生产力

了解过我们公司吗？

ElasticSearch CK技术用过吗？

ES经常用到，作为一个全文检索引擎使用，在做一个电商的微服务项目时，充当搜索功能，在物流项目时为了方便业务部门对各类单据的查询，ETL后将数据写入ES，在做用户画像时用于存储用户人群计算、用户群透视分析所需的用户标签数据（由于用户人群计算、用户群透视分析的条件转化成的SQL语句多条件嵌套较为复杂，使用 Impala 执行也需花费大量时间）

大数据面试准备（V1.0）