首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
数据湖
订阅
majun_junma
更多收藏集
微信扫码分享
微信
新浪微博
QQ
10篇文章 · 0订阅
字节跳动基于 Iceberg 的海量特征存储实践
曾经的架构无法满足字节跳动日趋复杂化的业务需求和日益增长的数据存储成本,本篇文章介绍了字节跳动如何基于 Iceberg 解决业务痛点,通过二次开发缓解上述问题。
Delta Lake/Hudi/Iceberg 三大数据湖方案深度对比
如何学习新技术? 博客文章 碎片时间 非系统性 视频 覆盖面全 书籍 需要反复复习和看 缺乏提炼 官方文档(建议) 内容新 太琐碎 不系统 但是内容全 技术会议 技术前沿 公司使用的技术 别人踩过的坑
iceberg过期删除
过期删除代码 直接创建一个RemoveSnapshots,然后设置过期条件,然后直接进入到RemoveSnapshots的commit方法中 在internalApply()中对过期snapshot进
Flink 和 Iceberg 如何解决数据入湖面临的挑战
4.17 上海站 Meetup 胡争老师分享内容:数据入湖的挑战有哪些,以及如何用 Flink + Iceberg 解决此类问题。
Flink + Iceberg + 对象存储,构建数据湖方案
简介: 上海站 Flink Meetup 分享内容,如何基于Flink、对象存储、Iceberg 来构建数据湖生态。 一、数据湖和 Iceberg 简介 1. 数据湖生态 如上图所示,对于一个成熟的数
网易:Flink + Iceberg 数据湖探索与实践
我们凌晨一些大的离线任务经常会因为一些原因出现延迟,这种延迟会导致核心报表的产出时间不稳定,有些时候会产出比较早,但是有时候就可能会产出比较晚,业务很难接受。 任务本身要请求的数据量会特别大。通常来说一天原始的数据量可能在几十TB。几百个分区,甚至上千个分区,五万+的文件数这样…
深度集成 Flink: Apache Iceberg 0.11.0 最新功能解读
在 2021 年 1 月 27 日,Apache Iceberg 发布了 0.11.0 版本[1]。在这个版本中,实现了以下核心功能: 1、Apache Iceberg 在 Core API 层面支持了 partition 的变更;同时还在 Iceberg Format v2 …
Flink + Iceberg 在去哪儿的实时数仓实践
作者:余东 一、背景及痛点 1. 背景 我们在使用 Flink 做实时数仓以及数据传输过程中,遇到了一些问题:比如 Kafka 数据丢失,Flink 结合 Hive 的近实时数仓性能等。Iceberg
Flink集成iceberg在生产环境中的实践
在大数据处理领域,有一个非常常见但是很麻烦的问题,即hdfs小文件问题,我们也被这个问题困扰了很久。开始的时候我们是自己写的一个小文件压缩工具,定期的去合并,原理就是把待压缩数据写入一个新的临时的文件夹,压缩完,和原来的数据进行检验,数据一致之后,用压缩的数据覆盖原来的数据,但…
Flink + Iceberg + 对象存储,构建数据湖方案
一、数据湖和 Iceberg 简介 1. 数据湖生态 如上图所示,对于一个成熟的数据湖生态而言: 首先我们认为它底下应具备海量存储的能力,常见的有对象存储,公有云存储以及 HDFS; 在这之上,也需要