首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
皮皮鲁的科技星球
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
1
文章 1
沸点 0
赞
1
返回
|
搜索文章
最新
热门
Flink入门:读取Kafka实时数据流,实现WordCount
本文主要介绍Flink接收一个Kafka文本数据流,进行WordCount词频统计,然后输出到标准输出上。通过本文你可以了解如何编写和运行Flink程序。 这里使用的是Flink提供的DataStream级别的API,主要包括转换、分组、窗口和聚合等操作。 env.execut…
Java函数式编程快速入门: Lambda表达式与Stream API
函数式编程(Functional Programming)是一种编程范式。它已经有近60年的历史,因其更适合做并行计算,近年来开始受到大数据开发者的广泛关注。Python、JavaScript等当红语言对函数式编程支持都不错,Scala更是以函数式编程的优势在大数据领域攻城略地…
Java/Scala 泛型快速入门教程
泛型(Generics)是强类型编程语言中经常使用的一种技术。很多框架的代码中都会大量使用到泛型,比如在Java中我们经常看到的: 在这段代码中,ArrayList就是一个泛型类,List就是一个泛型接口类,他们提供给开发者一个放置不同类型的集合容器,我们可以向这个集合容器中添…
聊聊Java/Scala的继承和多态
继承和多态是现代编程语言最为重要的概念。继承和多态允许用户将一些概念进行抽象,以达到代码复用的目的。本文用一些例子快速回顾一下Java/Scala的继承和多态。 继承在现实世界中无处不在。比如我们想描述动物以及他们的行为,可以先创建一个动物类别,动物类别又可以分为狗和鱼,这样的…
Flink Broadcast State实战案例:电商平台用户行为模式分析
Broadcast State是Flink 1.5引入的功能,本文将跟大家分享Broadcast State的潜在使用场景,并使用电商用户行为分析的例子来演示Broadcast State的使用方法。关于Flink状态的基本原理,Keyed State和Operator Sta…
ProcessFunction:Flink最底层API使用教程
之前提到的一些算子和函数能够进行一些时间上的操作,但是不能获取算子当前的Processing Time或者是Watermark时间戳,调用起来简单但功能相对受限。如果想获取数据流中Watermark的时间戳,或者在时间上前后穿梭,需要使用ProcessFunction系列函数,…
Flink Checkpoint机制原理剖析与参数配置
在Flink状态管理详解这篇文章中,我们介绍了Flink的状态都是基于本地的,而Flink又是一个部署在多节点的分布式引擎,分布式系统经常出现进程被杀、节点宕机或网络中断等问题,那么本地的状态在遇到故障时如何保证不丢呢?Flink定期保存状态数据到存储上,故障发生后从之前的备份…
收藏!机器学习和大数据优质资料打包下载,宅在家里学习吧!
与其宅在家里无聊,不如利用网络免费资源丰富一下自己的知识储备。这里我总结了一下大数据和AI相关领域的免费资源,这些书籍和资料都是我个人阅读过,一些阅读经验也和大家分享一下。鉴于当前形势,购买书籍不太方便,我已经将这些书籍的电子版打包整理好,文末有下载方式。 入门机器学习有两本必…
Flink状态管理详解:Keyed State和Operator List State深度解析
有状态的计算是流处理框架要实现的重要功能,因为稍复杂的流处理场景都需要记录状态,然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能: 数据流中的数据有重复,我们想对重复数据去重,需要记录哪些数据已经流入过应用,当新数据流入时,根据已流入过的数据来判断…
Flink时间系列:Event Time下如何处理迟到数据
Event Time语义下我们使用Watermark来判断数据是否迟到。一个迟到元素是指元素到达窗口算子时,该元素本该被分配到某个窗口,但由于延迟,窗口已经触发计算。目前Flink有三种处理迟到数据的方式: 如果不做其他操作,默认情况下迟到数据会被直接丢弃。 如果想对这些迟到数…
下一页
个人成就
文章被点赞
122
文章被阅读
136,436
掘力值
2,677
关注了
2
关注者
524
收藏集
0
关注标签
7
加入于
2019-11-08