首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据技术与应用实战
掘友等级
大数据架构
公众号(大数据技术与应用实战),分享一些大数据实战案例,欢迎关注
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
41
文章 41
沸点 0
赞
41
返回
|
搜索文章
最新
热门
Flink集成iceberg在生产环境中的实践
在大数据处理领域,有一个非常常见但是很麻烦的问题,即hdfs小文件问题,我们也被这个问题困扰了很久。开始的时候我们是自己写的一个小文件压缩工具,定期的去合并,原理就是把待压缩数据写入一个新的临时的文件夹,压缩完,和原来的数据进行检验,数据一致之后,用压缩的数据覆盖原来的数据,但…
Flink集成数据湖之实时数据写入iceberg
随着大数据处理结果的实时性要求越来越高,越来越多的大数据处理从离线转到了实时,其中以flink为主的实时计算在大数据处理中占有重要地位。 Flink消费kafka等实时数据流。然后实时写入hive,在大数据处理方面有着广泛的应用。此外由于列式存储格式如parquet或者orc在…
flink sql实时计算当天pv写入mysql
今天我们主要来讲一个很简单但是很常见的需求,实时计算出网站当天的pv值,然后将结果实时更新到mysql数据库,以供前端查询显示。 接下来我们看看如何用flink sql来实现这个简单的功能。 Flink中的ddl要和mysql中对的上,也要指定主键。 可能对于以前一直做批处理的…
深入解读flink sql cdc的使用以及源码分析
CDC,Change Data Capture,变更数据获取的简称,使用CDC我们可以从数据库中获取已提交的更改并将这些更改发送到下游,供下游使用。这些变更可以包括INSERT,DELETE,UPDATE等. 实时数据同步:比如我们将mysql库中的数据同步到我们的数仓中。 数…
flink实战-使用自定义聚合函数统计网站TP指标
在网站性能测试中,我们经常会选择 TP50、TP95 或者 TP99 等作为性能指标。接下来我们讲讲这些指标的含义、以及在flink中如何实时统计: 我们举一个例子,我们要统计网站一分钟之内的的响应时间的TP90,正常的处理逻辑就是把这一分钟之内所有的网站的响应时间从小到大排序…
详解flink中Look up维表的使用
在流式计算中,维表是一个很常见的概念,一般用于sql的join中,对流式数据进行数据补全,比如我们的source stream是来自日志的订单数据,但是日志中我们只是记录了订单商品的id,并没有其他的信息,但是我们把数据存入数仓进行数据分析的时候,却需要商品名称、价格等等其他的…
聊聊flink 1.11 中的随机数据生成器- DataGen connector
在flink 1.11中,内置提供了一个DataGen 连接器,主要是用于生成一些随机数,用于在没有数据源的时候,进行流任务的测试以及性能测试等。下面我们简单的聊聊如何来使用以及底层源码是如何实现的。 具体的使用方法可以先看下官网的概述。 目前随机生成只支持基本数据类型:数字类…
Flink源码分析之深度解读流式数据写入hive
前段时间我们讲解了flink1.11中如何将流式数据写入文件系统和hive [flink 1.11 使用sql将流式数据写入hive],今天我们来从源码的角度深入分析一下。以便朋友们对flink流式数据写入hive有一个深入的了解,以及在出现问题的时候知道该怎么调试。 其实我们…
Flink教程-keyby 窗口数据倾斜的优化
在大数据处理领域,数据倾斜是一个非常常见的问题,今天我们就简单讲讲在flink中如何处理流式数据倾斜问题。 我们先来看一个可能产生数据倾斜的sql. 在这个sql里,我们统计一个网站各个端的每分钟的pv,从kafka消费过来的数据首先会按照端进行分组,然后执行聚合函数count…
Flink教程-将流式数据写入redis
redis作为一个高吞吐的存储系统,在生产中有着广泛的应用,今天我们主要讲一下如何将流式数据写入redis,以及遇到的一些问题 解决。官方并没有提供写入redis的connector,所以我们采用apache的另一个项目bahir-flink [1]中提供的连接器来实现。 我们…
下一页
个人成就
文章被点赞
62
文章被阅读
70,879
掘力值
1,422
关注了
4
关注者
32
收藏集
0
关注标签
3
加入于
2020-05-30