小红书大数据开发面试题 已拿Offer

1,893 阅读3分钟

「Offer 驾到,掘友接招!我正在参与2022春招系列活动-经验复盘,点击查看 活动详情

题目来源

作者:是锅粥 链接:www.nowcoder.com/discuss/745… 来源:牛客网

面试题目

  1. 你对大数据有什么理解?

    大数据的定义:主要用于处理海量数据的技术工具。

    大数据最开始的在2012年,那个时候大数据刚刚火起来,国内的生态还不完善,现在衰落的Pig,Storm在当时还很流行。

    政府的支持,17 18年政府大力支持发展,给予政策资金支持,在近几年更是上升到国家战略。

    大数据目前的优势劣势,那么大数据发展10年的今天,很多东西逐渐完善,步入一个后红海时代,对实时性要求更高,因此近两年 Spark Flink很火,对于个人来说依然可以进入该行业,只不过行业门槛逐渐增高。

    大数据的未来

    未来Sql化是一个趋势,随着物联网兴起,更多的数据意味着大数据更有作为,因此多充电补充技术很有必要。

  2. hadoop有哪些了解说一下?

    Hadoop是整个大数据的基石

    从结构来看,Hadoop分为HDFS,MapReduce,Yarn三大部分,其中HDFS负责数据的存储,MapReduce负责数据计算,Yarn是负责资源调度。

    从整个大数据体系来看,Hadoop负责大数据的存储(主要用到HDFS),再搭配Spark或者Flink做数据处理,一般Spark+Hadoop做离线项目 Flink+Hadoop做实时项目

    从版本更新来看,Hadoop3较Hadoop2优化了Shell的很多bug,新增了纠删码 将原来的3倍的空间压缩为1.5倍存储提供更大的空间

  3. 你觉得hadoop的优势劣势

    优势:

          (1)适合做海量离线数据存储,对延迟有一定容忍度的数据处理
          (2)MapReduce相较于Spark来说非常稳定,遇到故障也会继续执行下去
          (3)相对来说数据存储比较安全,做好NameNode的HA
     
     
    

    劣势:

         (1)数据处理非常慢,比Spark差20倍
         (2)不支持多个任务同时执行
         (3)基于磁盘 不基于内存 也是缓慢的原因
    
  4. 说一下高可用

        高可用也就是NameNode的HA,采用双NameNode策略,
        一个NameNode故障之后另一个NameNode仍然可以工作,保证了存储数据的安全。
    
  5. 说一下你用过的这些不同database的应用场景以及特点

    1)Hive:离线海量数仓
    (2)Hbase:实时海量数仓
    (3)ClickHouse:实时海量数仓,支持SQL4)ElasticSearch:全文检索引擎
    (5)Mysql:RDBMS 传统数仓
    
  6. 挖简历,一个劲挖

  7. sql题,留存 blog.csdn.net/Captain_DUD…

  8. 反问,了解到了小红书bar很高以及hc不多

详细经过

负责人面的一面,60min

  1. 你对大数据有什么理解?
  2. hadoop有哪些了解说一下?
  3. 你觉得hadoop的优势劣势
  4. 说一下高可用
  5. 说一下你用过的这些不同database的应用场景以及特点
  6. 挖简历,一个劲挖
  7. sql题,留存
  8. 反问,了解到了小红书bar很高以及hc不多

面试官人很好,但是问题都很high level,一时间会不知道从何说起

第二天收到了二面邀约邮件 不知道二面会是什么样的人面,负责人的负责人?

———————-

二面隔了一周

二面内容实属开放题,以及完全不记得了


10.11 终于收到了三面的邀约

三面,数据大部门的老大面的 30分钟

他对我的其中一个经历比较感兴趣就那一段工作内容展开聊了聊 就没了

hr面

问到了不少比如什么人生中的压力很大的时期之类的

问题

10.25 意向书 开奖sp