「Offer 驾到,掘友接招!我正在参与2022春招系列活动-经验复盘,点击查看 活动详情
做个自我介绍吧:
面试官你好,我是面试咱们公司大数据开发实习岗位的xxx,曾就读于xx学校数据科学与大数据专业,2022年毕业。
曾在xx公司实习,有过3个月的Java开发经验,在学校期间做过几个比较大的大数据项目,主要负责ETL入库和数据分析,还负责数仓的部分组件搭建。
另外在校期间接过50多个课设,2~3个毕设,长期以来极大锻炼了我写代码和与人打交道的能力。
我会经常写技术博客总结学过的大数据知识,目前写了470多篇原创技术博文,曾获CSDN2021年博客之星大数据领域第一名,目前博客粉丝2w多。
我是一个抗压能力强,自我约束能力高的年轻人,期望能够成为大家的工作伙伴。
谈谈你对Hadoop的了解
Hadoop是整个大数据的基石
从结构来看,Hadoop分为HDFS,MapReduce,Yarn三大部分,其中HDFS负责数据的存储,MapReduce负责数据计算,Yarn是负责资源调度。
从整个大数据体系来看,Hadoop负责大数据的存储(主要用到HDFS),再搭配Spark或者Flink做数据处理,一般Spark+Hadoop做离线项目 Flink+Hadoop做实时项目
从版本更新来看,Hadoop3较Hadoop2优化了Shell的很多bug,新增了纠删码 将原来的3倍的空间压缩为1.5倍存储提供更大的空间
(延展:HDFS细说一下, Yarn有哪三种调度)
Hive用过吗?有什么优劣势??
Hive是建立在Hadoop基础上的离线存储海量数据的数据库
它与传统数据库不同
从存储量来看,Hive存储的数据是更大
从计算速度来看,Hive的处理速度较Mysql慢,但是当数据达到一定时,Hive的并行计算就体现出其优势
从存储位置来看,Hive存储在HDFS Mysql存储在本地磁盘
从使用场景来看,Hive用于OLAP系统即分析系统,Mysql用于OLTP系统 更多跟业务有关
数据仓库的概念
数据仓库分层分为 ODS DWD DWM DWS 和APP层。
我做过基于Hive的离线教育数仓项目,主要分为三层,
其中ODS是源数据层 DW是数据仓库层 ADS是前端应用直接读取的数据源; 维度表放在Dimen层 。 DW层还可继续划分为DWD明细层,DWM中间层,DWS业务层。 Dimen层还可划分为高基维度表和低基维度表
数据仓库主要解决了企业做数据分析难 存在数据孤岛和数据体量太大的问题,通过建立一个统一的系统仓库来解决集中存储和海量数据的计算,同时支持SQL化。
(延展:星型和雪花 事实表和维度表 指标和维度
学习与成长
从大二开始写博客2年时间,记录了自己的大数据学习过程,由于我会边学习边记录,目前的博文更新了完整的大数据常用组件文章,还有我做过的项目经历。
你说你乐于助人 帮助同学,能不能举个例子?
我会先根据报错帮他上网搜索,然后根据错误试验,尝试解决问题,实在没办法再找其他大佬解决。
有没有学过算法?列举一些算法?
学过数据结构:数组 链表 栈 队列 二叉树
算法:递归 排序 二分查找
业务场景题( 要有底气):
有一张excel表怎么把它导入到数据库中?
做过的项目
目前做过的大型项目有3个
分别是基于Hive的教育数仓项目和2个基于Spark的物流项目和用户画像项目
教育数仓解决的问题:
首先,受互联网+概念,疫情影响,越来越多的教育平台机构涌现。但是由于信息的共享利用不充分,导致企业多年积累了大量数据,而因为信息孤岛的问题,一直没有对这些数据进一步挖掘分析,因此也不能给企业的管理决策层提供有效的数据支撑。
有鉴于此,我们做的这个教育大数据分析平台项目,将大数据技术应用于教育行业,用擅长分析的OLAP系统为企业经营提供数据支撑。
具体的实现思路是,先建立企业的数据仓库,把分散的业务数据预处理,其次根据业务需求从海量的用户行为数据挖掘分析,定制出多维的数据集合,形成数据集市,供各个场景主题使用,最后用BI工具,进行前端展示。
用到的技术架构包括:mysql,sqoop,基于CM的Hive,Oozie和FineBi。 由于OLTP系统中数据大多存储在mysql,所以我们最终选择Sqoop作为导入导出工具,抽取数据到数仓,并使用基于CM管理的Hive进行数据清洗+分析,然后sqoop导出到mysql,最后用FineBI展示OLAP的数据分析结果。
所以,我们的技术解决了企业的三大痛点。一是数据量太大问题,传统数据库无法满足;二是系统多,数据分散问题,无法解决数据孤岛问题;三是,统计工作量太大,分析难度高问题,无法及时为企业提供数据参考。
物流项目背景:
本项目基于一家大型物流公司研发的智慧物流大数据平台。该物流公司是国内综合性快递、物流服务商,并在全国各地都有覆盖的网点。 业务规模:经过多年的积累、经营以及布局,拥有大规模的客户群,日订单达 上千万。如此规模的业务数据量,传统的数据处理技术已经不能满足企业的经营分析需求。
针对以上的物流企业痛点,我们给出对应的大数据架构解决方案: 数据源:关系型数据库Oracle和MySQL 采集:OGG和Canal分别将Oracle和MySQL的增量数据同步到Kafka集群存储:ETL计算之后分别存储到kudu,Elasticsearch,ClickHouse中 计算引擎:处理数据使用StructuredStreaming 技术亮点:该项目具有 完整Lambda 架构系统,有离线业务、也有实时业务 ClickHouse实时存储、计算引擎Kudu + Impala准实时分析系统 以企业主流的Spark生态圈为核心技术,例如:Spark、Spark SQL、structured Streaming Elasticsearch 全文检索 SpringCloud 搭建数据服务
用户画像项目背景
用户画像应用领域较为广泛,适合于各个产品周期,从新用户的引流到潜在用户的挖掘、从老用户 的培养到流失用户的回流等。通过挖掘用户兴趣、偏好、人口统计特征,可以 直接作用于提升营销精准 度、推荐匹配度,最终提升产品服务和企业利润。还包括广告投放、产品布局和行业报告等。
职业规划:
未来10年在大数据领域深入耕耘,深入在数据中台 数据治理 数据挖掘等领域学习,让数据更有商业价值,数据成为生产力
了解过我们公司吗?
ElasticSearch CK技术用过吗?
ES经常用到,作为一个全文检索引擎使用,在做一个电商的微服务项目时,充当搜索功能,在物流项目时为了方便业务部门对各类单据的查询,ETL后将数据写入ES,在做用户画像时用于存储用户人群计算、用户群透视分析所需的用户标签数据(由于用户人群计算、用户群透视分析的条件转化成的SQL语句多条件嵌套较为复杂,使用 Impala 执行也需花费大量时间)