对于一般大数据物流项目的面试题(问题+答案)_物流面试基本问题和答案

77 阅读5分钟

Kafka topic 数据存储生命周期(多久)
7天

Kafka Topic 个数及分区数和副本

Kakfa 分区数
分区数并不是越多越好,一般分区数不要超过集群机器数量。分区数越多占用内存越大(ISR 等),一个节点集中的分区也就越多,当它宕机的时候,对系统的影响也就越大。
分区数一般设置为:3-10 个

副本数设定
一般我们设置成 2 个或 3 个,很多企业设置为 2 个。

多少个 Topic
通常情况:多少个日志类型就多少个 Topic。也有对日志类型进行合并的。

Kafka 集群规模及机器配置
Kafka 机器数量=2*(峰值生产速度*副本数/100)+1

3、实时增量ETL程序开发,为什么选择使用StructuredStreaming??

从Spark-2.X版本后,Spark streaming就进入维护模式,Spark streaming是低阶API,给码农用的,各种坑;Structured streaming是给人设计的API,简单易用。由于太忙,所以一直没有在官方文档上 更新说明信息

4、消费Kafka数据几种方式及区别,如何保存偏移量?

SparkStreaming Checkpoint或自己管理
StructuredStreaming 使用Checkpoint管理

5、为什么使用Kudu存储,不使用HBase??

数据库【数据上的快速分析】
当数据量级起来以后,会发现数据库吃不消了或者成本开销太大了,此时就需要把数据从事务型数据库里拷贝出来或者说剥离出来,装入一个分析型的数据库(OLAP)里。发现对于实时性和变更性的需求, 目前只有 Kudu 一种组件能够满足需求
两者区别??

Kudu中数据读写流程
在这里插入图片描述
在这里插入图片描述

Kudu如何存储数据,每个表分区策略???

Kudu使用注意事项:
Kudu集群对时间同步极其严格

6、DataFrame与Dataset、RDD区别

RDD叫做弹性分布式数据集
与RDD类似,DataFrame是一个分布式数据容器,但是DataFrame不是类型安全的。
DataSet是DataFrame API的一个扩展,是Spark最新的数据抽象,结合了RDD和DataFrame的优点

RDD 特性有哪些??你是如何理解RDD的???
RDD是分布式弹性数据集,
为什么Spark计算比较快,与MapReduce相比较优势是什么??
基于内存计算
SparkSQL中优化有哪些???使用常见函数有哪些???
能介绍下你所知道和使用过的Spark调优吗?

资源参数调优

  • num-executors:设置Spark作业总共要用多少个Executor进程来执行
  • executor-memory:设置每个Executor进程的内存
  • executor-cores:设置每个Executor进程的CPU core数量
  • driver-memory:设置Driver进程的内存
  • spark.default.parallelism:设置每个stage的默认task数量

开发调优

  1. 避免创建重复的RDD
  2. 尽可能复用同一个RDD
  3. 对多次使用的RDD进行持久化
  4. 尽量避免使用shuffle类算子
  5. 使用map-side预聚合的shuffle操作
  6. 使用高性能的算子

①使用reduceByKey/aggregateByKey替代groupByKey

②使用mapPartitions替代普通map

③使用foreachPartitions替代foreach

④使用filter之后进行coalesce操作

⑤使用repartitionAndSortWithinPartitions替代repartition与sort类操作

  1. 广播大变量

在算子函数中使用到外部变量时,默认情况下,Spark会将该变量复制多个副本,通过网络传输到task中,此时每个task都有一个变量副本。如果变量本身比较大的话(比如100M,甚至1G),那么大量的变量副本在网络中传输的性能开销,以及在各个节点的Executor中占用过多内存导致的频繁GC(垃圾回收),都会极大地影响性能。

  1. 使用Kryo优化序列化性能
  2. 优化数据结构

在可能以及合适的情况下,使用占用内存较少的数据结构,但是前提是要保证代码的可维护性。

7、Impala 分析引擎

Impala架构,实现目的,目前架构如何
在这里插入图片描述

Hue与Impala集成

8、离线数仓

数仓分层如何划分呢???为什么要划分??为什么要如此设计???
ODS DWD层 DWS层 经过数据清洗后的数据无需中间层预聚合因此直接到DWS层

雪花模型和星型模型区别是什么????

雪花模型和星型模型区别在于是否围绕事实表,星型模型是一个事实表为中心,多个维度表环绕周围,雪花模型是它的延伸

9、ClickHouse 为什么选择,有哪些优势??

查询速度超快
适合业务场景

10、SparkSQL外部数据源实现(难点)

img img img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取