【讲座笔记】大数据架构师讲大数据学习数据治理更看重数据的安全。未来不能预测，想要预测未来五年的发展，可以看顶会的论文。

数据治理更看重数据的安全。
未来不能预测，想要预测未来五年的发展，可以看顶会的论文。
大数据的底层是云服务和容器，大数据在云原生上对底层资源进行治理。有更多的用户才会有更多场景。
离线和实时的数据服务中，离线有hadoop和spark，hive是元数据管理。现在不用hive了，都是spark。
spark的趋势是继续压榨CPU，看native engine上。实时有flink。数据引擎之上有clickhouse，即席查询、秒级查询。
数据湖目前还在不断更新。
未来的一个方向是更高效的计算和加载，减少时间，几十T的数据做到分钟级的查询。
增强学习、增强计算是在数据发现的阶段，做数据挖掘的赋能。
大数据应用有反欺诈和数据画像等。
大数据生态有很多开源软件，如何学习大数据？
1. 大数据是分布式的，没有涉及到事务，不用从mysql上学。
2. 组件很多，难以短时间学完
3. 入门的话，不能只精通一个点，国内的要求需要你掌握更多的东西
4. 学习方式：
  1. 拿到一个方向，抓大放小，以主线为核心深入学习，过程中对比相关的引擎。
  2. 各个引擎的差别在于特性，需要把握共性，学习共性的东西，flink的优化逻辑和其他的逻辑类似。
  3. 要学习好sql，要了解原理和逻辑，能吃很久，存储相对计算更容易一些。
做开发需要学习一门面向对象的语言。会一门语言就好，大数据使用的scala的门槛比较高。
bug会涉及到很多东西，要学会debug，语言是一个很基础的东西。
先读，再写。阅读没有问题，慢慢会理解，先阅读代码，阅读代码比写代码的难度低。
sql的很多业务逻辑是靠子查询嵌套实现的。
计算资源有限，改业务逻辑很难。
关于流批一体：
1. 流批一体是flink衍生出来的，有了流之后，能帮我更快的获得结果，流的可靠性很低，中间会有数据的延迟和丢失，所以不能完全信任，拉姆达架构需要两套开发，需要对齐，发现不一致的原因
2. 现实中批流一体的概念不大。
关于数据中台：数据中台是业务，而不是技术，在大公司能推广，在中型公司成本很高。
要看你技能的稀缺程度，平台也是一个可以通吃的行业，沉淀的东西要更多一些，