大数据数据处理原理

大数据数据处理原理

大数据数据处理原理

介绍Hadoop与Spark的工作原理（MapReduce）和计算过程，有简单的本地sprak分布代码练习。同时会介绍与之相关的各种组件和框架，比如YARN，ZooKeeper等。

等 2 人订阅共6篇文章创建于2023-05-29

大数据 T5 Spark Architecture，有向无环图（DAG）与懒启动

之前讲过，在大数据处理过程中，经常会出现多个Map和Reduce连接在一起的情况（map1 -> map2 -> map3 -> ... -> reduce1 -> ...）.这意味着后面的输入依赖于

2年前
491
点赞
评论

大数据 T4 Spark基础（附实例分析）

这篇文章是接前文进行创作的（同一专栏内），之前已经解释过的概念在此不再赘述比如MapReduce，如果有兴趣从头到尾的详细了解，可以查看专栏：大数据数据处理原理. 为什么要用spark 前文说过，H

2年前
312
2
评论

大数据 T3 Hadoop运行过程详解

谷歌论文中的MapReduce 下面是之前讲过的，一开始提出的MapReduce的概念流程。 Hadoop中的MapReduce 再来看一下Hadoop中MapReduce的流程。概念不变，只是更加

2年前
395
5
评论

大数据 T2 分布式计算与MapReduce(Hadoop实现）

T1 大数据简介中，提到计算能力可以通过横向或者纵向扩展来增加，纵向增加简单，但是单个机器总是有极限，因此之后讨论的都是横向扩展，即分布式计算。分布式计算可能出现的问题接下来以一个统计一本书的例子

2年前
233
2
评论

大数据 T1 什么是大数据

什么是大数据以下摘自维基百科。 Big data primarily refers to data sets that are too large or complex to be dealt wi

2年前
181
2
评论

大数据 0 大数据专栏简介

此文章为大数据专栏的内容介绍凑字数：期望对大数据处理过程以及所用工具有大概了解的人。此专栏的目的主要是梳理自己的学习过程，并且尝试给一个较为概括性的入门指导

2年前
115
点赞
评论