想转行大数据?这66个问题你搞懂了没?

312 阅读6分钟

「本文已参与好文召集令活动,点击查看:后端、大前端双赛道投稿,2万元奖池等你挑战!

引子

小明是一个工作经验 3 年的 Java 后端程序员,前段时间刷头条看到下面一条新闻:

“十四五”规划和2035年远景目标纲要全文来了!

image.png

粗略一看,小明感觉这是切合所有中国人的大新闻啦!

于是准备仔细的研究一哈~ 小明作为一个程序猿,很关心规划里面有没有哪些部分涉及到了计算机软件的。

通读完全文之后,小明发现里面提到了几个关键字

  1. 人工智能
  2. 大数据
  3. 云计算
  4. 区块链
  5. 网络安全

image.png

小明心想:

“这可比我单纯的搞 Java 后端有钱景的多啊!”

“但是我现在已经搞了几年的 Java 后端了,还能不能转行去干这些有前景的行业呢?”

小明大致在网上查了一哈,发现转行大数据貌似最靠谱,大部分的大数据技术框架都是 Java 编写的,而且关键的是小部分企业也欢迎 Java 后端的来转行搞大数据。

但是,小明还比较犹豫:

我也不知道转行大数据要哪些要求啊?只会 Java 可以吗?

小明想起自己还有个远房表哥大明,大明是搞大数据的,于是小明征询了一下大明的意见。

大明说:

“Java 后端转行大数据还是挺好转的,但是也得具备一定的基础条件”

“除了会用 Java 基础语法编程以外,你最好得熟悉 Java 并发JVM 两大块,因为大部分的大数据技术框架是用 Java 或者 Scala 编写的,高并发场景和 JVM 调优场景是大数据开发中不可缺少的一部分,还有,SQLLinux 你也得熟练使用,毕竟现在都流行用 SQL 来进行数据分析,像我平常写 SQL 代码比写 Java 还多,还有基本上所有的大数据技术框架都部署在 Linux 操作系统上面,Linux 的重要性就不用提了。最后,最重要的一点,你得有大数据思维!”

小明马上问:

“什么叫大数据思维啊?”

大明没有回答,递给了小明一份考卷:

“你看看,这里有 66 道题目,你把这 66 道题目都完全搞懂了,那你转行大数据就没啥问题了!”

考卷

  1. 你能谈谈你对大数据的认知吗?大数据到底是什么?
  2. 你知道大数据有哪些特征吗?
  3. 大数据和云计算有什么关系?
  4. 大数据和人工智能有什么关系?
  5. 你有没有研究过大数据的前世今生?大数据到底是怎么发展起来的?
  6. 大数据处理的基本流程是怎样的?
  7. 大数据开发主要做什么的?
  8. 你认为数据质量重要吗?从哪些角度可以评测数据的质量?
  9. 你知道大数据技术框架有哪些类型吗?
  10. 为什么说数据不动代码动?或者说为什么说移动计算比移动数据更划算?
  11. 你知道什么是内存计算吗?比起硬盘计算有什么优势?
  12. 有人认为大数据调优就是硬件资源调优?你认可这句话吗?
  13. 你知道什么是批处理和流处理吗?有边界数据和无边界数据呢?
  14. 你知道什么是事件时间和处理时间吗?
  15. 你知道什么是 ETL 吗?
  16. DAG 对大数据处理有什么好处?
  17. 你听说过 Workflow 设计模式吗?
  18. 你了解 Google Dataflow 吗?
  19. 分布式锁是什么?怎么实现呢?
  20. 分布式事务是什么?怎么实现呢?
  21. 你知道分布式锁和分布式事务有什么区别吗?
  22. 你知道 CAP 定理是什么吗?
  23. 你知道 BASE 理论是什么吗?
  24. 分布式系统有哪些衡量指标呢?
  25. 你知道一致性模型有哪些吗?
  26. 你知道 SLA 是什么吗?
  27. 怎样预估一个系统的 QPS 呢?
  28. 你怎么看待发布订阅模式的?
  29. 发布与订阅模式和观察者模式有什么不同呢?
  30. 分布式系统数据分片有哪些方式?
  31. 你知道一致性哈希吗?
  32. 为什么要把数据序列化?
  33. 我们应该怎么去选择数据压缩算法呢?
  34. 分布式系统中序列化框架应该怎么选择呢?
  35. 列式存储和行式存储有什么区别?
  36. 我们应该怎么选择列式存储格式呢?
  37. 你知道数据仓库吗?
  38. 你知道数据仓库与数据库有什么区别吗?
  39. 你听说过OLTP和OLAP吗?它们有什么区别?
  40. 数据仓库应该怎么去分层呢?
  41. 数据仓库应该怎么建模?
  42. 你知道什么是事实表和维度表吗?
  43. 你听说过商业智能(BI)吗?
  44. 你听过说 MPP 吗?
  45. 你觉得数据仓库适合使用 MPP 架构吗?
  46. 并行计算模型有哪些?
  47. 你知道 NoSQL 吗?
  48. 你是怎样理解 负载均衡 的?
  49. 你知道负载均衡算法有哪些吗?
  50. 分布式系统中怎样实现转发呢?
  51. 你知道为什么需要大数据资源调度框架吗?
  52. 资源调度有哪些技术难点呢?
  53. 你知道多租户技术吗?
  54. 你知道倒排索引吗?
  55. 你认为什么样的数据是企业数据吗?
  56. 你了解数据湖吗?为什么需要数据湖?
  57. 数据仓库、数据集市和数据湖有什么区别?
  58. 你知道 Lambda 架构吗?
  59. 你知道 Kappa 架构吗?
  60. 怎样把 Lambda 架构应用到数据湖里面呢?
  61. 企业数据湖面临着哪些挑战呢?
  62. 你知道 RAID 技术吗?
  63. 你知道为什么需要工作流调度系统吗?
  64. 你知道为什么需要消息队列吗?
  65. 你听说过云原生数据库吗?
  66. 你认为数据库领域的未来发展趋势是怎样的?

尾声

点击关注,上面的所有问题都会在之后的专栏中得到更新哦~

image.png