Andyer74846

赞

40

|

搜索文章

赞

文章( 40 ) 沸点( 0 )

小白也能看懂的 Hive 调优

Hive 一个常用的大数据组件，影响它的性能的从来都不是因为数据量过大的问题，而是数据倾斜，冗余，Job 和 IO 过多，MapReduce 分配不合理···等

说出你的愿望吧
4年前
4.1k
58
8

阅读笔记：与程序员相关的SSD性能知识

刚好最近自己电脑的固态坏了，所以看到就顺带做做笔记了。 SSD 的外部性能指标：IOPS，带宽 / 吞吐率和访问延迟。很多人对传统硬盘了解较多，毕竟这种硬盘在业界用了好几十年了，很多教科书里面都讲述过。所以，对 SSD 的性能，我先用对比的方式带你看看它们的外部性能指标和特性…

说出你的愿望吧
5年前
5.8k
41
3

HDFS的基础总结及架构演进

HDFS的小总结，包括存储策略，架构演进，元数据管理，双缓冲机制···等内容，之前也有两篇关于HDFS的内容，总得来说算是介绍地比较详细了

说出你的愿望吧
5年前
3.7k
62
5

MySQL同步数据到HBase

注意：upperBound和numPartitions两个参数是有关联的，upperBound / numPartitions = 每个分区需要写入多少条数据，所以最好就是搞清楚数据总量是多少，因为笔者就遇到这么一个问题，本来总量是4000W条数据，笔者设置upperBound…

说出你的愿望吧
5年前
3.6k
40
5

Flink的checkPoint机制

现在我们想实现这么一个功能，也是单词计数，不过这个单词计数要实现，自定义一个阈值然后每次到达阈值时就进行print的功能。要是已经对Flink有一定了解的小伙伴就肯定知道，我们只需要自定义一个下游就好了可是这个程序明显存在着一个问题，因为数据是存储在内存里面的，程序重启的时候…

说出你的愿望吧
5年前
5.7k
43
5

Elk环境篇 --- 本地快速搭建你的ElasticSearch及Kibana

ELK是三个软件产品的首字母缩写，Elasticsearch，Logstash 和 Kibana。这三款软件都是开源软件，通常是配合使用，而且又先后归于 Elastic.co 公司名下，故被简称为 ELK 协议栈 Elasticsearch是个开源分布式搜索引擎，它的特点有：开…

说出你的愿望吧
6年前
8.5k
120
10

过一下Flink的各种State

单词计数的那部分逻辑就不说明了，都一个样。从第一句开始。首先我们定义一个配置我这里的做法是直接抛出了异常，为啥呢？因为如果是生产环境中这里出现了异常，你的任务启动都出现了问题，那你捕获它有什么意义呢是吧？所以我们这里直接抛出去即可。之后就是写单词计数了，不说明了。来实现这…

说出你的愿望吧
6年前
6.9k
61
8

Flink 的算子操作

scala shell方式支持流处理和批处理。当启动shell命令行之后，两个不同的ExecutionEnvironments会被自动创建。使用senv(Stream)和benv(Batch)分别去处理流处理和批处理程序。(类似于spark-shell中sc变量) 而且细心的小…

说出你的愿望吧
6年前
4.1k
49
1

Flink 基础入门

Spark 的写过的内容我回顾了一下，我觉得如果把一文带你过完Spark RDD的基础概念给理解透彻的话，这东西其实也实在没有太多需要展开的，所以我就先跳坑直接 Flink 了，如果有什么需要特别去补充的地方，就之后再补上吧。 Spark Streaming 准确来说算是一…

说出你的愿望吧
6年前
4.5k
60
10

Spark Streaming 的容错机制

此时我们启动一个Application任务，根据我们启动的模式和运行集群的类型，会根据一定的策略选择一台服务器当做Driver服务器，在其初始化完成之后，就会顺带把这些Executor给初始化完成。之后Driver就会发送Receiver到某一个Executor上面，Rece…

说出你的愿望吧
6年前
3.2k
32
2

加入于

2019-04-20