首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
说出你的愿望吧
掘友等级
Developer
|
🍨Vzan
一个为了感动自己而学习的无聊人罢了 学习交流打游戏唠嗑,加微信:Lintikle 公众号: 说出你的愿望吧
获得徽章 7
动态
文章
专栏
沸点
收藏集
关注
作品
赞
162
文章 135
沸点 27
赞
162
返回
|
搜索文章
最新
热门
完成你的第一个Spark Streaming程序
其实 Spark Streaming 主要就是把算子用用,多敲代码的事儿。我当时觉得这个Spark Streaming好像要提的事情并不多呀,所以就直接跳过了。然后··· 虽然图很简陋,但是能把信息准确地表达就好。 第二行,我们setMaster(local[2]),这里要注意…
Elk环境篇 --- 本地快速搭建你的ElasticSearch及Kibana
ELK是三个软件产品的首字母缩写,Elasticsearch,Logstash 和 Kibana。这三款软件都是开源软件,通常是配合使用,而且又先后归于 Elastic.co 公司名下,故被简称为 ELK 协议栈 Elasticsearch是个开源分布式搜索引擎,它的特点有:开…
过一下Flink的各种State
单词计数的那部分逻辑就不说明了,都一个样。从第一句开始。首先我们定义一个配置 我这里的做法是直接抛出了异常,为啥呢?因为如果是生产环境中这里出现了异常,你的任务启动都出现了问题,那你捕获它有什么意义呢是吧?所以我们这里直接抛出去即可。 之后就是写单词计数了,不说明了。 来实现这…
Flink 的算子操作
scala shell方式支持流处理和批处理。当启动shell命令行之后,两个不同的ExecutionEnvironments会被自动创建。使用senv(Stream)和benv(Batch)分别去处理流处理和批处理程序。(类似于spark-shell中sc变量) 而且细心的小…
Flink 基础入门
Spark 的写过的内容我回顾了一下,我觉得如果把 一文带你过完Spark RDD的基础概念 给理解透彻的话,这东西其实也实在没有太多需要展开的,所以我就先跳坑直接 Flink 了,如果有什么需要特别去补充的地方,就之后再补上吧。 Spark Streaming 准确来说算是一…
Spark Streaming 的容错机制
此时我们启动一个Application任务,根据我们启动的模式和运行集群的类型,会根据一定的策略选择一台服务器当做Driver服务器,在其初始化完成之后,就会顺带把这些Executor给初始化完成。 之后Driver就会发送Receiver到某一个Executor上面,Rece…
一文带你理清Spark Core调优的方方面面
图非常的重要,是文章中最有价值的部分。如果不是很重要的图一般不会亲手画 此文会很大程度上借鉴美团的文章分享内容和Spark官方资料去进行说明,也会结合笔者自身的理解。 这里会直接一笔带过,不作详细的展开了,大家可以通过搜索引擎能找到它们的详细说明。我们用最直接的话来阐述 就如字…
Spark的Shuffle总结分析
Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂。 在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce,而Reduce阶段负责从Map端拉取数据并进…
关于Spark基础的一些小问题补充
DAGScheduler拿到DAG有向无环图之后,按照宽依赖进行stage的划分。每一个stage内部有很多可以并行运行的task,最后封装在一个一个的taskSet集合中,然后把taskSet发送给TaskScheduler TaskScheduler得到taskSet集合之…
一文带你过完Spark RDD的基础概念
上一篇权当吹水了,从这篇开始进入正题。 RDD(Resilient Distributed Dataset)叫做 弹性分布式数据集 ,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合. 一个分区(Partition)列表,组成了该RDD的数据…
下一页
个人成就
优秀创作者
文章被点赞
3,670
文章被阅读
268,669
掘力值
10,868
关注了
1
关注者
6,275
收藏集
6
关注标签
3
加入于
2018-12-27