大数据学习

大数据学习

大数据学习

记录大数据学习内容

暂无订阅共9篇文章创建于2021-07-13

Pyflink 的安装和 windows 开发环境配置

在分布式大数据计算引擎这个领域，现在最常用的Apache Spark 早已支持 python语言编写，而且对ML（机器学习）和DM（数据挖掘）也都有api的支持，而作为第三代计算引擎的flink，从

4年前
2.2k
点赞
评论

Pyflink 的安装和 windows 开发环境配置

Flink中的时间语义和watermark

先了解两个概念首先要先知道时间语义和watermark 是什么时间语义在flink的数据处理流程中，有三个重要的时间概念，如上图所示分别是 Event Time：事件创建的时间（也就是数据生成的

4年前
1.4k
点赞
评论

Flink中的时间语义和watermark

Flink流数据api实战之实现机器学习密度峰值聚类算法

最近好几天没更新了，并没有偷懒玩哈，短学期前立的flag依旧记在心中。没更新的这几天我可是在每天加班加点的学习呢，为了今天这篇博客我这几天没少掉头发啊，呜呜呜呜！！！

4年前
1.5k
点赞
评论

Flink流数据api实战之实现机器学习密度峰值聚类算法

爬取网站patient like me中COVID-19论坛中的评论信息

这几天老师布置了一个小的爬虫任务对于我这种完全不会爬虫的人来说，我以为会有些难度，但应该也不会太费时间。哪知道小小的patient like me竟然让我两天没打游戏了不多说了直接开干确定思路

4年前
582
点赞
评论

爬取网站patient like me中COVID-19论坛中的评论信息

Flink流处理api之sink

概述 Flink中没有类似mapreduce、spark中的foreach方法让用户进行迭代的操作，所以所有对外的输出操作都要利用sink来完成通过这样的形式来完成任务的输出操作当然 Flink

4年前
583
点赞
评论

Flink流处理api之sink

IDEA 报错 ERROR: A JNI ERROR HAS OCCURRED, PLEASE CHECK YOUR INSTALLATION AND TRY

今天学习flinksource的时候无意间发现了一个很离谱的错 ERROR: A JNI ERROR HAS OCCURRED, PLEASE CHECK YOUR INSTALLATION AND

4年前
2.0k
点赞
评论

IDEA 报错 ERROR: A JNI ERROR HAS OCCURRED, PLEASE CHECK YOUR INSTALLATION AND TRY

Flink流处理api之source

欢迎关注我的个人博客学习更多知识 flink流处理基础框架类比于storm 和 spark flink也是有执行环境下面写出最小框架返回本地执行环境，需要在调用时指定默认的并行度返回集群执行环

4年前
656
点赞
评论

Flink流处理api之source

Flink的运行架构（二）

执行图和任务链程序与数据流（DataFlow）所有的flink执行程序大体可以分为三部分： Source 负责读取数据源 Transformation 利用各种算子进行处理加工 Sink 负责输出

4年前
603
1
评论

Flink的运行架构（一）

学习一个组件之前，最总要的就是要了解这个组件的运行框架我们来看看flink计算引擎的运行框架 Flink 运行时的组件 Flink 运行时架构主要包括四个不同的组件，它们会在运行流处理应用程序时协同

4年前
956
1
评论