Andyer74846 的个人主页 - 动态

赞了这篇文章

Developer @🍨Vzan

·

4年前

小白也能看懂的 Hive 调优

Hive 一个常用的大数据组件，影响它的性能的从来都不是因为数据量过大的问题，而是数据倾斜，冗余，Job 和 IO 过多，MapReduce 分配不合理···等...

58

8

赞了这篇文章

Developer @🍨Vzan

·

5年前

HDFS的基础总结及架构演进

HDFS的小总结，包括存储策略，架构演进，元数据管理，双缓冲机制···等内容，之前也有两篇关于HDFS的内容，总得来说算是介绍地比较详细了...

62

5

赞了这篇文章

Developer @🍨Vzan

·

6年前

Elk环境篇 --- 本地快速搭建你的ElasticSearch及Kibana

ELK是三个软件产品的首字母缩写，Elasticsearch，Logstash 和 Kibana。这三款软件都是开源软件，通常是配合使用，而且又先后归于 Elastic.c...

120

10

赞了这篇文章

Developer @🍨Vzan

·

6年前

过一下Flink的各种State

单词计数的那部分逻辑就不说明了，都一个样。从第一句开始。首先我们定义一个配置我这里的做法是直接抛出了异常，为啥呢？因为如果是生产环境中这里出现了异常，你的任务启动都出现了...

61

8

赞了这篇文章

Developer @🍨Vzan

·

6年前

Flink 的算子操作

scala shell方式支持流处理和批处理。当启动shell命令行之后，两个不同的ExecutionEnvironments会被自动创建。使用senv(Stream)和b...

49

1

赞了这篇文章

Developer @🍨Vzan

·

6年前

Flink 基础入门

Spark 的写过的内容我回顾了一下，我觉得如果把一文带你过完Spark RDD的基础概念给理解透彻的话，这东西其实也实在没有太多需要展开的，所以我就先跳坑直接 Fli...

60

10

赞了这篇文章

Developer @🍨Vzan

·

6年前

Spark Streaming 的容错机制

此时我们启动一个Application任务，根据我们启动的模式和运行集群的类型，会根据一定的策略选择一台服务器当做Driver服务器，在其初始化完成之后，就会顺带把这些Ex...

32

2

赞了这篇文章

Developer @🍨Vzan

·

6年前

一文带你理清Spark Core调优的方方面面

图非常的重要，是文章中最有价值的部分。如果不是很重要的图一般不会亲手画此文会很大程度上借鉴美团的文章分享内容和Spark官方资料去进行说明，也会结合笔者自身的理解。这里...

61

4

赞了这篇文章

Developer @🍨Vzan

·

6年前

Spark的Shuffle总结分析

Shuffle就是对数据进行重组，由于分布式计算的特性和要求，在实现细节上更加繁琐和复杂。在MapReduce框架，Shuffle是连接Map和Reduce之间的桥梁，M...

51

20

赞了这篇文章

Developer @🍨Vzan

·

6年前

关于Spark基础的一些小问题补充

DAGScheduler拿到DAG有向无环图之后，按照宽依赖进行stage的划分。每一个stage内部有很多可以并行运行的task，最后封装在一个一个的taskSet集合中...

29

1

赞了这篇文章

Developer @🍨Vzan

·

6年前

一文带你过完Spark RDD的基础概念

上一篇权当吹水了，从这篇开始进入正题。 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表...

63

10

赞了这篇文章

Developer @🍨Vzan

·

6年前

从零开始认识 Spark

Spark的知识点很多，决定分多P来慢慢讲🤣，比较关键的RDD算子其实已经写了大半，奈何内容还是太多了就不和这篇扯皮的放一起了。 spark是在Hadoop基础上的改进，...

64

13

赞了这篇文章

Developer @🍨Vzan

·

6年前

Kafka源码篇 --- 可能是你看过最详细的RecordAccumulator解读

此时我们要拉取一个version的值，并把一个 needUpdate 参数修改为true，然后去唤醒 Sender 线程去拉取元数据，而这需要通过一个网络组件 Networ...

59

14

赞了这篇文章

Developer @🍨Vzan

·

6年前

Kafka源码篇 --- 你一定能get到的Producer的初始化及元数据获取流程

从上一年开始鸽了好久的源码篇，终于也是给整了一下。其实一方面也是，怕自己整理不好，看的云里雾里，那也没什么意思，所以还是花了些时间准备，也是希望能够和大家一起进步吧。注意，...

72

13

赞了这篇文章

Developer @🍨Vzan

·

6年前

Hadoop源码篇 --- 面试常问的Namenode元数据管理及双缓冲机制

这两个关于NameNode的问题其实非常地经典，不仅有很多细节可询，而且也是面试的一个高频问题，所以特意独立出来一篇。元数据管理会结合源码来讲，而双缓冲虽然暂时没去翻源码，...

63

4

赞了这篇文章

Developer @🍨Vzan

·

6年前

目录：我的大数据学习笔记

可以通过长按二维码关注我的公众号，不过会先在掘金更新后同步过去。 PC端的这个右侧的目录找东西确实好找点，我每次写也非常注意看这块排版工不工整🤣，用这里去直接跳到对应的内...

75

20

赞了这篇文章

Developer @🍨Vzan

·

6年前

插曲：Kafka的HW，LEO更新原理及运行流程总结

虽然这是一个源码的预热篇同样这也是插曲篇的一个总结，我们从一开始的集群的各个角色，到集群的设计，到网络模型，到生产者，消费者都已经提了个遍。这一篇会把最后的一个内核提一下，...

79

34

赞了这篇文章

Developer @🍨Vzan

·

6年前

插曲：Kafka源码预热篇--- Java NIO

因为Kafka的源码阅读是需要对Java NIO知识有一定的了解的，所以怎么说，如果觉得自己对于Java这块算是比较熟悉，同样作为插曲篇的这篇是可以直接忽略。因为这篇也不会...

49

6

赞了这篇文章

Developer @🍨Vzan

·

6年前

插曲：Kafka的生产者案例和消费者原理解析

假设我们现在有一个电商系统，凡是能登录系统的用户都是会员，会员的价值体现在，消费了多少钱，就会累计相应的积分。积分可以兑换礼品包，优惠券···等等。又到了我们的画图时间�...

85

7

赞了这篇文章

Developer @🍨Vzan

·

6年前

插曲：Kafka的生产者原理及重要参数说明

本来插曲系列是应大家要求去更新的，但是好像第一篇的kafka效果还可以所以更插曲就勤快些了（毕竟谁不想看着自己被多多点赞呢hhh🤣），上一篇说了一个案例是为了说明如何去考...

65

4