初识数据湖｜青训营笔记这是我参与「第四届青训营」笔记创作活动的第8天数据湖的历史一、hadoop HDFS 优点：

这是我参与「第四届青训营」笔记创作活动的第8天

数据湖的历史

优点：

缺点：

优点：

缺点：

首先什么是数据湖？数据湖和数据仓库有啥区别？

现在湖仓一体就是结合两者的优点，数据湖存储成本很低，数据仓库存结构化的数据，我们直接把数据仓库对数据的严格要求实现到低成本的分布式存储上

这里就主要讲一下IceBerg，因为这是netflix公司开发的，对netflix比较感兴趣

原本netflix是用hive作为数据仓库使用的，但是发现hive有很多缺陷：

Netflix采用Hive时按照时间字段做partition，他们发现仅一个月会产生2688个partition和270万个数据文件。他们执行一个简单的select查询，发现仅在分区裁剪阶段就耗费数十分钟
他们发现即使在开启Hive ACID情况下，仍有很多细小场景无法保证原子性
他们发现Hive Memstore没有文件级别的统计信息，这使得filter只能下推到partition级别，而无法下推到文件级别，对上层分析性能损耗无可避免

于是，netflix就自己开发了一套轻量级的数据湖IceBerg

有个有意思的特点，iceberg可以动态调整选择date还是hour分区，iceberg可以随时变更并且把数据根据需要进行分区，这个就叫Hidden partition
然后支持filter下推到文件级别
acid支持