美团-数据仓库高级工程师面试

473 阅读2分钟

关注公众号,回复“资料全集”,不定期最新大数据业内资讯。

❤:在这里跟我一起学习技术、职场、人生、原理、健身、摄影、生活等知识吧!

❤: 欢迎点个关注一起学习,进步充实人生。

 

1.自我介绍,解释自身情况

2.离线数仓使用了多久,解决过那些需求,实时数仓搭建花费多少时间

3.离线数仓遇见过的问题,如何解决的,技术上遇见过哪些的挑战

4.离线解决的最大的问题是什么?

5.如何评价离线or实时数仓的好坏,评价标准是什么

6.个人认为数仓中有哪些值得优化的地方,公司或团队是如何解决的

7.如何保障指标一致性(从模型层面、数据质量层面、平台工具层面角度进行分析)、复用性

8.数仓搭建规范说一下,表命名规范、数仓分层、数仓主题、数据域、业务域等

9.数仓调度作业中的code review

10.结合自己负责的业务主线,详细简述一个主题,业务流程、概念模型、实体节点

11.主题域-一级主题-业务过程 ,描述自己在这个过程中做了哪些事情

14.模型优化,团队中是如何实现的

15.数仓建模方法,范式建模和维度建模

16.PL/SQL、TSQL、HSQL,HSQL很普遍的优化手段

17.介绍底层原理,说一下执行计划、map、reduce数

18.实时数仓使用的框架、技术组件

19.实时如何保障数据质量,是自己测试还是团队人员测试

20.了解市面上主流的OLAP数据引擎吗,详细对比特性与优缺点、场景

21.描述下公司业务主线,说一下最有价值的的业务

24.流量域怎么建设的,用户行为+业务线

25.用户域说一下,又是怎么和流量域merge,跨主题合并

26.有什么想问问面试官的

27.离职原因是什么,多久能到岗

总结 

主要考察三个层面:技术组件、理论原理、业务过程。技术组件层面多为Hive优化、数据倾斜;理论多为维度建模、数仓层级、主题事实维度等;业务的话,会结合理论和优化等一起问,项目细节、模型细节、业务细节,模型与业务的结合,痛点与优化方案等。

对,还有实时数仓,术业有专攻,可以不会,但要了解。

几乎所有的问题都是结合项目、结合业务说。离线实时两条线,离线为主、实时为辅,团队内分工明确,专搞离线或实时,同时数据化建设。业务不同阶段,数仓模型不断优化与迭代。