数据湖 - majun_junma的收藏集 - 掘金

数据湖

更多收藏集

10篇文章 · 0订阅

字节跳动基于 Iceberg 的海量特征存储实践

曾经的架构无法满足字节跳动日趋复杂化的业务需求和日益增长的数据存储成本，本篇文章介绍了字节跳动如何基于 Iceberg 解决业务痛点，通过二次开发缓解上述问题。

字节跳动云原生计算
3年前
3.4k
1
1

Delta Lake/Hudi/Iceberg 三大数据湖方案深度对比

如何学习新技术？博客文章碎片时间非系统性视频覆盖面全书籍需要反复复习和看缺乏提炼官方文档（建议）内容新太琐碎不系统但是内容全技术会议技术前沿公司使用的技术别人踩过的坑

wffeige
4年前
2.1k
点赞
评论

iceberg过期删除

过期删除代码直接创建一个RemoveSnapshots，然后设置过期条件，然后直接进入到RemoveSnapshots的commit方法中在internalApply()中对过期snapshot进

用户3367373763940
4年前
1.2k
点赞
评论

Flink 和 Iceberg 如何解决数据入湖面临的挑战

4.17 上海站 Meetup 胡争老师分享内容：数据入湖的挑战有哪些，以及如何用 Flink + Iceberg 解决此类问题。

Flink_China
4年前
546
1
评论

Flink 和 Iceberg 如何解决数据入湖面临的挑战

Flink + Iceberg + 对象存储，构建数据湖方案

简介：上海站 Flink Meetup 分享内容，如何基于Flink、对象存储、Iceberg 来构建数据湖生态。一、数据湖和 Iceberg 简介 1. 数据湖生态如上图所示，对于一个成熟的数

阿里云云栖号
4年前
444
2
评论

Flink + Iceberg + 对象存储，构建数据湖方案

网易：Flink + Iceberg 数据湖探索与实践

我们凌晨一些大的离线任务经常会因为一些原因出现延迟，这种延迟会导致核心报表的产出时间不稳定，有些时候会产出比较早，但是有时候就可能会产出比较晚，业务很难接受。任务本身要请求的数据量会特别大。通常来说一天原始的数据量可能在几十TB。几百个分区，甚至上千个分区，五万+的文件数这样…

Flink_China
5年前
768
点赞
评论

深度集成 Flink: Apache Iceberg 0.11.0 最新功能解读

在 2021 年 1 月 27 日，Apache Iceberg 发布了 0.11.0 版本[1]。在这个版本中，实现了以下核心功能： 1、Apache Iceberg 在 Core API 层面支持了 partition 的变更；同时还在 Iceberg Format v2 …

Flink_China
5年前
1.3k
1
评论

Flink + Iceberg 在去哪儿的实时数仓实践

作者：余东一、背景及痛点 1. 背景我们在使用 Flink 做实时数仓以及数据传输过程中，遇到了一些问题：比如 Kafka 数据丢失，Flink 结合 Hive 的近实时数仓性能等。Iceberg

Flink_China
4年前
866
1
评论

Flink + Iceberg 在去哪儿的实时数仓实践

Flink集成iceberg在生产环境中的实践

在大数据处理领域，有一个非常常见但是很麻烦的问题，即hdfs小文件问题，我们也被这个问题困扰了很久。开始的时候我们是自己写的一个小文件压缩工具，定期的去合并，原理就是把待压缩数据写入一个新的临时的文件夹，压缩完，和原来的数据进行检验，数据一致之后，用压缩的数据覆盖原来的数据，但…

大数据技术与应用实战
5年前
1.7k
1
6

Flink + Iceberg + 对象存储，构建数据湖方案

一、数据湖和 Iceberg 简介 1. 数据湖生态如上图所示，对于一个成熟的数据湖生态而言：首先我们认为它底下应具备海量存储的能力，常见的有对象存储，公有云存储以及 HDFS；在这之上，也需要

Flink_China
4年前
1.4k
4
评论

Flink + Iceberg + 对象存储，构建数据湖方案