「Offer 驾到,掘友接招!我正在参与2022春招系列活动-经验复盘,点击查看 活动详情
题目来源
作者:是锅粥 链接:www.nowcoder.com/discuss/745… 来源:牛客网
面试题目
-
你对大数据有什么理解?
大数据的定义:主要用于处理海量数据的技术工具。
大数据最开始的在2012年,那个时候大数据刚刚火起来,国内的生态还不完善,现在衰落的Pig,Storm在当时还很流行。
政府的支持,17 18年政府大力支持发展,给予政策资金支持,在近几年更是上升到国家战略。
大数据目前的优势劣势,那么大数据发展10年的今天,很多东西逐渐完善,步入一个后红海时代,对实时性要求更高,因此近两年 Spark Flink很火,对于个人来说依然可以进入该行业,只不过行业门槛逐渐增高。
大数据的未来
未来Sql化是一个趋势,随着物联网兴起,更多的数据意味着大数据更有作为,因此多充电补充技术很有必要。
-
hadoop有哪些了解说一下?
Hadoop是整个大数据的基石
从结构来看,Hadoop分为HDFS,MapReduce,Yarn三大部分,其中HDFS负责数据的存储,MapReduce负责数据计算,Yarn是负责资源调度。
从整个大数据体系来看,Hadoop负责大数据的存储(主要用到HDFS),再搭配Spark或者Flink做数据处理,一般Spark+Hadoop做离线项目 Flink+Hadoop做实时项目
从版本更新来看,Hadoop3较Hadoop2优化了Shell的很多bug,新增了纠删码 将原来的3倍的空间压缩为1.5倍存储提供更大的空间
-
你觉得hadoop的优势劣势
优势:
(1)适合做海量离线数据存储,对延迟有一定容忍度的数据处理 (2)MapReduce相较于Spark来说非常稳定,遇到故障也会继续执行下去 (3)相对来说数据存储比较安全,做好NameNode的HA
劣势:
(1)数据处理非常慢,比Spark差20倍 (2)不支持多个任务同时执行 (3)基于磁盘 不基于内存 也是缓慢的原因
-
说一下高可用
高可用也就是NameNode的HA,采用双NameNode策略, 一个NameNode故障之后另一个NameNode仍然可以工作,保证了存储数据的安全。
-
说一下你用过的这些不同database的应用场景以及特点
(1)Hive:离线海量数仓 (2)Hbase:实时海量数仓 (3)ClickHouse:实时海量数仓,支持SQL (4)ElasticSearch:全文检索引擎 (5)Mysql:RDBMS 传统数仓
-
挖简历,一个劲挖
-
sql题,留存 blog.csdn.net/Captain_DUD…
-
反问,了解到了小红书bar很高以及hc不多
详细经过
负责人面的一面,60min
- 你对大数据有什么理解?
- hadoop有哪些了解说一下?
- 你觉得hadoop的优势劣势
- 说一下高可用
- 说一下你用过的这些不同database的应用场景以及特点
- 挖简历,一个劲挖
- sql题,留存
- 反问,了解到了小红书bar很高以及hc不多
面试官人很好,但是问题都很high level,一时间会不知道从何说起
第二天收到了二面邀约邮件 不知道二面会是什么样的人面,负责人的负责人?
———————-
二面隔了一周
二面内容实属开放题,以及完全不记得了
10.11 终于收到了三面的邀约
三面,数据大部门的老大面的 30分钟
他对我的其中一个经历比较感兴趣就那一段工作内容展开聊了聊 就没了
hr面
问到了不少比如什么人生中的压力很大的时期之类的
问题
10.25 意向书 开奖sp