如何学习大数据框架,才能达到事半功倍?

·  阅读 71

image.png

1. 为什么大数据火了这么多年后,还是越来越火?

image.png

预测

  • 天气预报

数据仓库

  • 决策工具 最优解

image.png

2. 大数据开发和传统后台开发有什么不同?

  • 40%的大数据工程师以前曾担任软件工程师。
  • 要保持竞争力,大数据工程师需要不定期更新技能,以适应新框架。
    • 技术迭代快
  • 对NoSQL和SQL数据库的深入了解,对从事数据仓库和数据建模的工作人员 来说必不可少。
    • 计算引擎是个重要的地方
    • Mysql最好了解一些
  • 更能接触敏感数据,要有更多责任,需要对法律和隐私问题有一定的敏锐。
  • 大数据工程师擅长解决问题,因为大规模的数据意味更容易发生问题。
    • trouble shooting
    • sense

数据规模认知不同 开发项目的流程不同

成果考量方式不同 获取资料的方式不同 对待数据敏感度不同 技术壁垒不同 可替代性不同 方向要深入一些 要稀缺

大数据工程师一般需要具备的知识

  1. 一项后台开发语言:
    • Java/C++/Scala...
  2. 多个大数据相关的算法:
    • 数据库存取/索引算法/排序算法/BloomFilter...
  3. 核心的几种数据结构:
    • 堆、二叉树、队列、矩阵...
  4. 关系代数的表示法:SQL
    • 不一定要会写很复杂的 但是要能读懂
  5. 某些大数据框架/工具:Hadoop/Spark/Kafka...
  6. 一项系统开发能力:分布式系统开发
  7. 一种性格:耐心

3. 为什么说大数据技术壁垒高,不容易学

image.png

不在广 在精,但是也需要略懂一些 多少都是有一些关联 新技术 flink clickhouse 来了以后 要跟上学习 很多公司都会分享内部的实践 都会发一些文章 不懂基础的话 看别人的文档 看不懂所以然 所以需要系统性的学习 开发的时候 需要知道里面的原理和细节 但是要注意 不要钻牛角尖 在意一些细节 要能鸟瞰 现成的东西拿过来用。会出现各种各样的问题 例如部署 实施 能解决问题也是一个能力 时刻需要保持项目 能保持数据量的处理 对数据规模要了解

大数据技术栈太多了 大数据的文章太碎了 大数据的技术细节太深了 大数据项目的问题太杂了 大数据思维太抽象了 大数据行业太内卷了

  • 学的东西太多了

image.png

AI的发展也和大数据 有联系 需要很多的数据进行训练

image.png

4. 如何系统性学习大数据框架,做到事半功倍?

相对抽象 论文多 找到学习的共性 大数据平台 逐渐趋向一个数据库架构

image.png

怎么融会贯通 快速学习新技术

image.png

可以参考的论文 data lake 湖仓一体 image.png

image.png 从SQL的原理出发 一条SQL的发生底层的操作 都发生了什么事情? 系统性的学习 将知识串起来 不可能学习所有的东西 但是可以总结出共性 方便以后快速上手 快速学习

image.png 这么多的OLAP不能每个都学会 找一个学精 为什么这么设计 学会了一个 其他的引擎

image.png

image.png

image.png

数据库发展时间长 细节 技术点很多 分布式SQL 工作 执行 优化 CBU等 SQL引擎的设计模式 会挑几个引擎 SPARK SQL着重学习 找出和其他引擎的对比 区别和联系

image.png

数据库--->数据仓库--->数据糊 告诉你为什么这么设计 有什么问题 可以怎么改 这个东西抽丝剥茧的训练思维

image.png

image.png

分类:
后端
标签: