开启掘金成长之旅！这是我参与「掘金日新计划 · 12 月更文挑战」的第1天 juejin.cn/post/716729…

数据学习前置基础

编程核心能力

Java SE
前端三大件+Vue
Spring+Spring MVC+SpringBoot
Spring Cloud基础

Linux基本功

服务器基本常识
Linux基本命令
Shell核心编程能力
进阶：自动化运维工具

数据基础能力

MySql基础功底
MySql调优经验
Oracle基本功底
Oracle常见存储过程书写能力

大数据核心能力

Hadoop
- Hdfs
- MapReduce
- Yarn
Hive
- Hive基本功
- Hive开窗函数
- Hive调优经验
- Hive执行原理
- Hive UDF UDTF能力
Sqoop
- RDBMS迁移能力
- 数据导入
- 数据导出
- 批量脚本规范
- 自动化导数功能
Kafka
- 生产者Api
- 消费者Api
- 流处理Api
Spark
- RDD
- Spark SQL
- Spark 常见调优
- Spark DF DS 编程
- Spark 图库
- Spark ML lib
Canal
- 基本原理
- 常见配置
- 为什么要引入canal来做实时？
Flink
- 基础
- 窗口
- 水印
- 时间语义
- Flink CDC
- Flink SQL

计算机基本功（老生常谈）

数据结构
计算机网络
操作系统

面试准备

常见八股文
力扣SQL 250题
牛客80题

简历书写

自我介绍
熟悉技能
项目经验
实习经历
个人自评

就业方向盘点

方向1：数据仓库工程师一般日常工作不写代码、以SQL为主、薪资较高、重点关注。数仓会细化离线数仓和实时数仓、目前企业主流还是离线数仓，实时数仓是未来趋势和方向。

一般日常工作不写代码、以SQL为主、薪资较高、重点关注。数仓会细化离线数仓和实时数仓、目前企业主流还是离线数仓，实时数仓是未来趋势和方向。重中之重：SQL，基本语法必须要掌握，一般问的问题主要以Hql为主，此外还需要掌握以下技能： Hadoop（无论实时和离线都必须掌握） Kafka：重点，可以说是大数据领域唯一的消息队列 Flink：实时框架中的王者 HBase：了解基本原理，能够熟练应用相关Api Hive：数据仓库工具，需要掌握基本原理，底层执行以及基本调优 Oozie/Airflow/Azkaban:任务调度工具，会用即可离线数仓范式：基本的维度建模规范，事实表模型，参考书籍《数据仓库工具箱》

方向2：大数据开发工程师语言：主要以Java、Scala、Python为主

重点技能： linux基本使用、shell脚本编写 Hadoop：理解底层，看懂源码 Hive：能够进行Udf、Udaf编写，能够基于源码进行二次开发 Spark：能够开发、对源码有了解 Flink：能够开发、对源码有了解 Kafka：使用+底层原理 HBase：使用+底层原理。

方向3：ETL工程师 ETL：数据抽取、转换、加载 ETL工作属于业务与数据的交点、需要处理上下游的关系。首先，需要对业务层面非常熟悉其次，需要对接数据开发工程师、数据科学家，整理并准备数据、进行数据清洗、整理、融合。技能： Kettle：数据转换工具 Linux：基本命令 MySQL：熟悉 Sqoop/DataX：会用 Hive：会用 HDFS：熟悉 Oozie：熟悉 Flume：会用

方向4：数据分析师数据分析师分为两种：一种，偏数据型基于数据场景，给出数据评价以及业务发展预测。另一种，针对业务层面进行分析，偏业务型。侧重数据的分析师： 1.python、sql基本功、Excel 2.数据可视化工具：Power BI、Tableau、Superset 3.数据敏感性 4.概率论与数理统计 5.部分机器学习算法：如k-means、logistic、随机森林等侧重业务的分析师： 1.SQL、Excel 2.可视化图表工具、分析报告制作。 3.对于某一行业业务的了解程度。

方向5：大数据运维运维侧不是很了解：基本功要有：linux、shell这些不用说还需要一些Ansible等自动化运维工具、Zabbix、Grafana等监控工具

方向6：数据治理工程师 1.SQL为主、Python、Excel为辅 2.了解数据治理的意义 3.了解基本的数据治理规范 4.能够基于原子指标和派生指标进行加工 5.对基本的业务进行把控、梳理、对数据进行一定的标准化分类相关技能： 1.Hadoop 2.Hive 3.Flink 4.Kafka 5.HBase 6.Flume 7.Kylin、Phoenix 等。

快速构建数据学习核心体系