-
数据治理更看重数据的安全。
-
未来不能预测,想要预测未来五年的发展,可以看顶会的论文。
-
大数据的底层是云服务和容器,大数据在云原生上对底层资源进行治理。有更多的用户才会有更多场景。
-
离线和实时的数据服务中,离线有hadoop和spark,hive是元数据管理。现在不用hive了,都是spark。
-
spark的趋势是继续压榨CPU,看native engine上。实时有flink。数据引擎之上有clickhouse,即席查询、秒级查询。
-
数据湖目前还在不断更新。
-
未来的一个方向是更高效的计算和加载,减少时间,几十T的数据做到分钟级的查询。
-
增强学习、增强计算是在数据发现的阶段,做数据挖掘的赋能。
-
大数据应用有反欺诈和数据画像等。
-
大数据生态有很多开源软件,如何学习大数据?
-
大数据是分布式的,没有涉及到事务,不用从mysql上学。
-
组件很多,难以短时间学完
-
入门的话,不能只精通一个点,国内的要求需要你掌握更多的东西
-
学习方式:
- 拿到一个方向,抓大放小,以主线为核心深入学习,过程中对比相关的引擎。
- 各个引擎的差别在于特性,需要把握共性,学习共性的东西,flink的优化逻辑和其他的逻辑类似。
- 要学习好sql,要了解原理和逻辑,能吃很久,存储相对计算更容易一些。
-
-
做开发需要学习一门面向对象的语言。会一门语言就好,大数据使用的scala的门槛比较高。
-
bug会涉及到很多东西,要学会debug,语言是一个很基础的东西。
-
先读,再写。阅读没有问题,慢慢会理解,先阅读代码,阅读代码比写代码的难度低。
-
sql的很多业务逻辑是靠子查询嵌套实现的。
-
计算资源有限,改业务逻辑很难。
-
关于流批一体:
- 流批一体是flink衍生出来的,有了流之后,能帮我更快的获得结果,流的可靠性很低,中间会有数据的延迟和丢失,所以不能完全信任,拉姆达架构需要两套开发,需要对齐,发现不一致的原因
- 现实中批流一体的概念不大。
-
关于数据中台:数据中台是业务,而不是技术,在大公司能推广,在中型公司成本很高。
-
要看你技能的稀缺程度,平台也是一个可以通吃的行业,沉淀的东西要更多一些,