首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
皮皮鲁的科技星球
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
1
文章 1
沸点 0
赞
1
返回
|
搜索文章
皮皮鲁的科技星球
5年前
关注
Flink Broadcast State实战案例:电商平台用户行为模式分析
Broadcast State是Flink 1.5引入的功能,本文将跟大家分享Broadcast State的潜在使用场景,并使用电商用户行为分析的例子来演示Broadca...
0
评论
分享
皮皮鲁的科技星球
5年前
关注
ProcessFunction:Flink最底层API使用教程
之前提到的一些算子和函数能够进行一些时间上的操作,但是不能获取算子当前的Processing Time或者是Watermark时间戳,调用起来简单但功能相对受限。如果想获取...
0
评论
分享
皮皮鲁的科技星球
5年前
关注
Flink Checkpoint机制原理剖析与参数配置
在Flink状态管理详解这篇文章中,我们介绍了Flink的状态都是基于本地的,而Flink又是一个部署在多节点的分布式引擎,分布式系统经常出现进程被杀、节点宕机或网络中断等...
3
评论
分享
皮皮鲁的科技星球
5年前
关注
收藏!机器学习和大数据优质资料打包下载,宅在家里学习吧!
与其宅在家里无聊,不如利用网络免费资源丰富一下自己的知识储备。这里我总结了一下大数据和AI相关领域的免费资源,这些书籍和资料都是我个人阅读过,一些阅读经验也和大家分享一下。...
1
评论
分享
皮皮鲁的科技星球
5年前
关注
Flink状态管理详解:Keyed State和Operator List State深度解析
有状态的计算是流处理框架要实现的重要功能,因为稍复杂的流处理场景都需要记录状态,然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能: 数据流中的...
3
评论
分享
皮皮鲁的科技星球
5年前
关注
Flink时间系列:Event Time下如何处理迟到数据
Event Time语义下我们使用Watermark来判断数据是否迟到。一个迟到元素是指元素到达窗口算子时,该元素本该被分配到某个窗口,但由于延迟,窗口已经触发计算。目前F...
0
评论
分享
皮皮鲁的科技星球
5年前
关注
Flink进阶教程:如何在两个DataStream上进行Join操作
批处理经常要解决的问题是将两个数据源做关联Join操作。比如,很多手机APP都有一个用户数据源User,同时APP会记录用户的行为,我们称之为Behavior,两个表按照u...
0
评论
分享
皮皮鲁的科技星球
5年前
关注
Flink窗口全解析:三种时间窗口、窗口处理函数使用及案例
我们经常需要在一个时间窗口维度上对数据进行聚合,窗口是流处理应用中经常需要解决的问题。Flink的窗口算子为我们提供了方便易用的API,我们可以将数据流切分成一个个窗口,对...
12
1
分享
皮皮鲁的科技星球
5年前
关注
隐私、资本泡沫成焦点,大数据和AI从业者应该了解的2020六大趋势
硬件层面:各种专用芯片开始提供算力支持,5G带来更多潜在应用。 软件层面:各巨头公司布局计算框架、云服务,为开发者提供更简单易用的基础服务。 技术之外:隐私问题和资本泡沫开...
0
评论
分享
皮皮鲁的科技星球
5年前
关注
Flink基础教程:时间语义、Event Time和Watermark机制原理与实践
在流处理中,时间是一个非常核心的概念,是整个系统的基石。比如,我们经常会遇到这样的需求:给定一个时间窗口,比如一个小时,统计时间窗口的内数据指标。那如何界定哪些数据将进入这...
0
评论
分享
皮皮鲁的科技星球
5年前
关注
深度解析Flink flatMap算子的自定义方法(附代码例子)
总结下来不难发现,使用Flink的算子必须进行自定义,自定义时可以使用Lambda表达式,也可以继承并重写函数类。本文将带大家阅读一些Flink源码,并提供具体的算子使用例...
0
评论
分享
皮皮鲁的科技星球
5年前
关注
Flink进阶教程:数据类型和序列化机制简介
几乎所有的大数据框架都要面临分布式计算、数据传输和持久化问题。数据传输过程前后要进行数据的序列化和反序列化:序列化就是将一个内存对象转换成二进制串,形成网络传输或者持久化的...
1
评论
分享
皮皮鲁的科技星球
5年前
关注
Flink零基础教程:并行度和数据重分布
Flink的Transformation转换主要包括四种:单数据流基本转换、基于Key的分组转换、多数据流转换和数据重分布转换。读者可以使用Flink Scala Shel...
1
评论
分享
皮皮鲁的科技星球
5年前
关注
Flink算子使用方法及实例演示:union和connect
Flink的Transformation转换主要包括四种:单数据流基本转换、基于Key的分组转换、多数据流转换和数据重分布转换。读者可以使用Flink Scala Shel...
1
评论
分享
皮皮鲁的科技星球
5年前
关注
Flink算子使用方法及实例演示:keyBy、reduce和aggregations
Flink的Transformation转换主要包括四种:单数据流基本转换、基于Key的分组转换、多数据流转换和数据重分布转换。本文主要介绍基于Key的分组转换,关于时间和...
2
评论
分享
皮皮鲁的科技星球
5年前
关注
Hadoop Spark Kylin...你知道大数据框架名字背后的故事吗?
对软件命名并不是一件容易的事情,名字要朗朗上口,易于记忆,既不能天马行空,又要代表软件本身的功能和创新。本文将历数几款大数据框架及其创始背后的故事。 2004年,Apach...
1
评论
分享
皮皮鲁的科技星球
5年前
关注
Flink零基础学习教程:map、filter和flatMap算子实例详解
本文将对Flink Transformation中各算子进行详细介绍,并使用大量例子展示具体使用方法。Transformation各算子可以对Flink数据流进行处理和转化...
0
评论
分享
皮皮鲁的科技星球
5年前
关注
机器学习 | 最大似然估计:从概率角度理解机器学习
本专栏之前的文章介绍了线性回归以及最小二乘法的数学推导过程。对于一组训练数据,使用线性回归建模,可以有不同的模型参数来描述数据,这时候可以用最小二乘法来选择最优参数来拟合训...
3
评论
分享
皮皮鲁的科技星球
5年前
关注
Flink零基础实战教程:股票价格数据流实时处理
之前的文章《10行Flink WordCount程序背后的万字深度解析,读懂Flink原理和架构》使用WordCount展示了Flink程序的基本结构,本文将以股票价格来演...
3
评论
分享
皮皮鲁的科技星球
5年前
关注
Kafka能做什么?十分钟构建你的实时数据流管道
本文将对Kafka做一个入门简介,并展示如何使用Kafka构建一个文本数据流管道,通过本文,读者可以了解一个流处理数据管道(Pipeline)的大致结构:数据生产者源源不断...
0
评论
分享
下一页
个人成就
文章被点赞
121
文章被阅读
135,113
掘力值
2,674
关注了
2
关注者
524
收藏集
0
关注标签
7
加入于
2019-11-08