首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据 数据处理原理
脑容量不足
创建于2023-05-29
订阅专栏
介绍Hadoop与Spark的工作原理(MapReduce)和计算过程,有简单的本地sprak分布代码练习。同时会介绍与之相关的各种组件和框架,比如YARN,ZooKeeper等。
等 2 人订阅
共6篇文章
创建于2023-05-29
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据 T5 Spark Architecture,有向无环图(DAG)与懒启动
之前讲过,在大数据处理过程中,经常会出现多个Map和Reduce连接在一起的情况(map1 -> map2 -> map3 -> ... -> reduce1 -> ...).这意味着后面的输入依赖于
大数据 T4 Spark基础(附实例分析)
这篇文章是接前文进行创作的(同一专栏内),之前已经解释过的概念在此不再赘述比如MapReduce,如果有兴趣从头到尾的详细了解,可以查看专栏:大数据 数据处理原理. 为什么要用spark 前文说过,H
大数据 T3 Hadoop运行过程详解
谷歌论文中的MapReduce 下面是之前讲过的,一开始提出的MapReduce的概念流程。 Hadoop中的MapReduce 再来看一下Hadoop中MapReduce的流程。 概念不变,只是更加
大数据 T2 分布式计算与MapReduce(Hadoop实现)
T1 大数据简介中,提到计算能力可以通过横向或者纵向扩展来增加,纵向增加简单,但是单个机器总是有极限,因此之后讨论的都是横向扩展,即分布式计算。 分布式计算可能出现的问题 接下来以一个统计一本书的例子
大数据 T1 什么是大数据
什么是大数据 以下摘自维基百科。 Big data primarily refers to data sets that are too large or complex to be dealt wi
大数据 0 大数据专栏简介
此文章为大数据专栏的内容介绍 凑字数:期望对大数据处理过程以及所用工具有大概了解的人。此专栏的目的主要是梳理自己的学习过程,并且尝试给一个较为概括性的入门指导