开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第1天 juejin.cn/post/716729…
数据学习前置基础
编程核心能力
- Java SE
- 前端三大件+Vue
- Spring+Spring MVC+SpringBoot
- Spring Cloud基础
Linux基本功
- 服务器基本常识
- Linux基本命令
- Shell核心编程能力
- 进阶:自动化运维工具
数据基础能力
- MySql基础功底
- MySql调优经验
- Oracle基本功底
- Oracle常见存储过程书写能力
大数据核心能力
-
Hadoop
- Hdfs
- MapReduce
- Yarn
-
Hive
- Hive基本功
- Hive开窗函数
- Hive调优经验
- Hive执行原理
- Hive UDF UDTF能力
-
Sqoop
- RDBMS迁移能力
- 数据导入
- 数据导出
- 批量脚本规范
- 自动化导数功能
-
Kafka
- 生产者Api
- 消费者Api
- 流处理Api
-
Spark
- RDD
- Spark SQL
- Spark 常见调优
- Spark DF DS 编程
- Spark 图库
- Spark ML lib
-
Canal
- 基本原理
- 常见配置
- 为什么要引入canal来做实时?
-
Flink
- 基础
- 窗口
- 水印
- 时间语义
- Flink CDC
- Flink SQL
计算机基本功(老生常谈)
- 数据结构
- 计算机网络
- 操作系统
面试准备
- 常见八股文
- 力扣SQL 250题
- 牛客80题
简历书写
- 自我介绍
- 熟悉技能
- 项目经验
- 实习经历
- 个人自评
就业方向盘点
方向1:数据仓库工程师 一般日常工作不写代码、以SQL为主、薪资较高、重点关注。 数仓会细化离线数仓和实时数仓、目前企业主流还是离线数仓,实时数仓是未来趋势和方向。
一般日常工作不写代码、以SQL为主、薪资较高、重点关注。 数仓会细化离线数仓和实时数仓、目前企业主流还是离线数仓,实时数仓是未来趋势和方向。 重中之重:SQL,基本语法必须要掌握,一般问的问题主要以Hql为主,此外还需要掌握以下技能: Hadoop(无论实时和离线都必须掌握) Kafka:重点,可以说是大数据领域唯一的消息队列 Flink:实时框架中的王者 HBase:了解基本原理,能够熟练应用相关Api Hive:数据仓库工具,需要掌握基本原理,底层执行以及基本调优 Oozie/Airflow/Azkaban:任务调度工具,会用即可 离线数仓范式:基本的维度建模规范,事实表模型,参考书籍《数据仓库工具箱》
方向2:大数据开发工程师 语言:主要以Java、Scala、Python为主
重点技能: linux基本使用、shell脚本编写 Hadoop:理解底层,看懂源码 Hive:能够进行Udf、Udaf编写,能够基于源码进行二次开发 Spark:能够开发、对源码有了解 Flink:能够开发、对源码有了解 Kafka:使用+底层原理 HBase:使用+底层原理。
方向3:ETL工程师 ETL:数据抽取、转换、加载 ETL工作属于业务与数据的交点、需要处理上下游的关系。 首先,需要对业务层面非常熟悉 其次,需要对接数据开发工程师、数据科学家,整理并准备数据、进行数据清洗、整理、融合。 技能: Kettle:数据转换工具 Linux:基本命令 MySQL:熟悉 Sqoop/DataX:会用 Hive:会用 HDFS:熟悉 Oozie:熟悉 Flume:会用
方向4:数据分析师 数据分析师分为两种: 一种,偏数据型基于数据场景,给出数据评价以及业务发展预测。 另一种,针对业务层面进行分析,偏业务型。 侧重数据的分析师: 1.python、sql基本功、Excel 2.数据可视化工具:Power BI、Tableau、Superset 3.数据敏感性 4.概率论与数理统计 5.部分机器学习算法:如k-means、logistic、随机森林等 侧重业务的分析师: 1.SQL、Excel 2.可视化图表工具、分析报告制作。 3.对于某一行业业务的了解程度。
方向5:大数据运维 运维侧不是很了解: 基本功要有:linux、shell这些不用说 还需要一些Ansible等自动化运维工具、Zabbix、Grafana等监控工具
方向6:数据治理工程师 1.SQL为主、Python、Excel为辅 2.了解数据治理的意义 3.了解基本的数据治理规范 4.能够基于原子指标和派生指标进行加工 5.对基本的业务进行把控、梳理、对数据进行一定的标准化分类 相关技能: 1.Hadoop 2.Hive 3.Flink 4.Kafka 5.HBase 6.Flume 7.Kylin、Phoenix 等。