快速构建数据学习核心体系

178 阅读4分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第1天 juejin.cn/post/716729…

数据学习前置基础

编程核心能力

  • Java SE
  • 前端三大件+Vue
  • Spring+Spring MVC+SpringBoot
  • Spring Cloud基础

Linux基本功

  • 服务器基本常识
  • Linux基本命令
  • Shell核心编程能力
  • 进阶:自动化运维工具

数据基础能力

  • MySql基础功底
  • MySql调优经验
  • Oracle基本功底
  • Oracle常见存储过程书写能力

大数据核心能力

  • Hadoop

    • Hdfs
    • MapReduce
    • Yarn
  • Hive

    • Hive基本功
    • Hive开窗函数
    • Hive调优经验
    • Hive执行原理
    • Hive UDF UDTF能力
  • Sqoop

    • RDBMS迁移能力
    • 数据导入
    • 数据导出
    • 批量脚本规范
    • 自动化导数功能
  • Kafka

    • 生产者Api
    • 消费者Api
    • 流处理Api
  • Spark

    • RDD
    • Spark SQL
    • Spark 常见调优
    • Spark DF DS 编程
    • Spark 图库
    • Spark ML lib
  • Canal

    • 基本原理
    • 常见配置
    • 为什么要引入canal来做实时?
  • Flink

    • 基础
    • 窗口
    • 水印
    • 时间语义
    • Flink CDC
    • Flink SQL

计算机基本功(老生常谈)

  • 数据结构
  • 计算机网络
  • 操作系统

面试准备

  • 常见八股文
  • 力扣SQL 250题
  • 牛客80题

简历书写

  • 自我介绍
  • 熟悉技能
  • 项目经验
  • 实习经历
  • 个人自评

就业方向盘点

方向1:数据仓库工程师 一般日常工作不写代码、以SQL为主、薪资较高、重点关注。 数仓会细化离线数仓和实时数仓、目前企业主流还是离线数仓,实时数仓是未来趋势和方向。

一般日常工作不写代码、以SQL为主、薪资较高、重点关注。 数仓会细化离线数仓和实时数仓、目前企业主流还是离线数仓,实时数仓是未来趋势和方向。 重中之重:SQL,基本语法必须要掌握,一般问的问题主要以Hql为主,此外还需要掌握以下技能: Hadoop(无论实时和离线都必须掌握) Kafka:重点,可以说是大数据领域唯一的消息队列 Flink:实时框架中的王者 HBase:了解基本原理,能够熟练应用相关Api Hive:数据仓库工具,需要掌握基本原理,底层执行以及基本调优 Oozie/Airflow/Azkaban:任务调度工具,会用即可 离线数仓范式:基本的维度建模规范,事实表模型,参考书籍《数据仓库工具箱

方向2:大数据开发工程师 语言:主要以Java、Scala、Python为主

重点技能: linux基本使用、shell脚本编写 Hadoop:理解底层,看懂源码 Hive:能够进行Udf、Udaf编写,能够基于源码进行二次开发 Spark:能够开发、对源码有了解 Flink:能够开发、对源码有了解 Kafka:使用+底层原理 HBase:使用+底层原理。

方向3:ETL工程师 ETL:数据抽取、转换、加载 ETL工作属于业务与数据的交点、需要处理上下游的关系。 首先,需要对业务层面非常熟悉 其次,需要对接数据开发工程师、数据科学家,整理并准备数据、进行数据清洗、整理、融合。 技能: Kettle:数据转换工具 Linux:基本命令 MySQL:熟悉 Sqoop/DataX:会用 Hive:会用 HDFS:熟悉 Oozie:熟悉 Flume:会用

方向4:数据分析师 数据分析师分为两种: 一种,偏数据型基于数据场景,给出数据评价以及业务发展预测。 另一种,针对业务层面进行分析,偏业务型。 侧重数据的分析师: 1.python、sql基本功、Excel 2.数据可视化工具:Power BI、Tableau、Superset 3.数据敏感性 4.概率论与数理统计 5.部分机器学习算法:如k-means、logistic、随机森林等 侧重业务的分析师: 1.SQL、Excel 2.可视化图表工具、分析报告制作。 3.对于某一行业业务的了解程度。

方向5:大数据运维 运维侧不是很了解: 基本功要有:linux、shell这些不用说 还需要一些Ansible等自动化运维工具、Zabbix、Grafana等监控工具

方向6:数据治理工程师 1.SQL为主、Python、Excel为辅 2.了解数据治理的意义 3.了解基本的数据治理规范 4.能够基于原子指标和派生指标进行加工 5.对基本的业务进行把控、梳理、对数据进行一定的标准化分类 相关技能: 1.Hadoop 2.Hive 3.Flink 4.Kafka 5.HBase 6.Flume 7.Kylin、Phoenix 等。