首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Andyer74846
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
40
文章 40
沸点 0
赞
40
返回
|
搜索文章
赞
文章( 40 )
沸点( 0 )
小白也能看懂的 Hive 调优
Hive 一个常用的大数据组件,影响它的性能的从来都不是因为数据量过大的问题,而是数据倾斜,冗余,Job 和 IO 过多,MapReduce 分配不合理···等
阅读笔记:与程序员相关的SSD性能知识
刚好最近自己电脑的固态坏了,所以看到就顺带做做笔记了。 SSD 的外部性能指标:IOPS,带宽 / 吞吐率和访问延迟。 很多人对传统硬盘了解较多,毕竟这种硬盘在业界用了好几十年了,很多教科书里面都讲述过。所以,对 SSD 的性能,我先用对比的方式带你看看它们的外部性能指标和特性…
HDFS的基础总结及架构演进
HDFS的小总结,包括存储策略,架构演进,元数据管理,双缓冲机制···等内容,之前也有两篇关于HDFS的内容,总得来说算是介绍地比较详细了
MySQL同步数据到HBase
注意:upperBound和numPartitions两个参数是有关联的,upperBound / numPartitions = 每个分区需要写入多少条数据,所以最好就是搞清楚数据总量是多少,因为笔者就遇到这么一个问题,本来总量是4000W条数据,笔者设置upperBound…
Flink的checkPoint机制
现在我们想实现这么一个功能,也是单词计数,不过这个单词计数要实现,自定义一个阈值然后每次到达阈值时就进行print的功能。要是已经对Flink有一定了解的小伙伴就肯定知道,我们只需要自定义一个下游就好了 可是这个程序明显存在着一个问题,因为数据是存储在内存里面的,程序重启的时候…
Elk环境篇 --- 本地快速搭建你的ElasticSearch及Kibana
ELK是三个软件产品的首字母缩写,Elasticsearch,Logstash 和 Kibana。这三款软件都是开源软件,通常是配合使用,而且又先后归于 Elastic.co 公司名下,故被简称为 ELK 协议栈 Elasticsearch是个开源分布式搜索引擎,它的特点有:开…
过一下Flink的各种State
单词计数的那部分逻辑就不说明了,都一个样。从第一句开始。首先我们定义一个配置 我这里的做法是直接抛出了异常,为啥呢?因为如果是生产环境中这里出现了异常,你的任务启动都出现了问题,那你捕获它有什么意义呢是吧?所以我们这里直接抛出去即可。 之后就是写单词计数了,不说明了。 来实现这…
Flink 的算子操作
scala shell方式支持流处理和批处理。当启动shell命令行之后,两个不同的ExecutionEnvironments会被自动创建。使用senv(Stream)和benv(Batch)分别去处理流处理和批处理程序。(类似于spark-shell中sc变量) 而且细心的小…
Flink 基础入门
Spark 的写过的内容我回顾了一下,我觉得如果把 一文带你过完Spark RDD的基础概念 给理解透彻的话,这东西其实也实在没有太多需要展开的,所以我就先跳坑直接 Flink 了,如果有什么需要特别去补充的地方,就之后再补上吧。 Spark Streaming 准确来说算是一…
Spark Streaming 的容错机制
此时我们启动一个Application任务,根据我们启动的模式和运行集群的类型,会根据一定的策略选择一台服务器当做Driver服务器,在其初始化完成之后,就会顺带把这些Executor给初始化完成。 之后Driver就会发送Receiver到某一个Executor上面,Rece…
下一页
关注了
0
关注者
0
收藏集
1
关注标签
0
加入于
2019-04-20