大数据 - 用户7765260787556的收藏集 - 掘金

大数据

用户7765260787556

更多收藏集

15篇文章 · 0订阅

1万字Flink算子大全手册：实战 + 原理干货

Flink基于流编程模型，内置了很多强大功能的算子，可以帮助我们快速开发应用程序。耗费一周整理Flink算子手册，希望能够帮助各位小伙伴~

大数据兵工厂
4年前
2.7k
15
评论

1万字Flink算子大全手册：实战 + 原理干货

Spark 三大数据结构之 RDD的行动算子

这是我参与更文挑战的第4天，活动详情查看：更文挑战介绍 RDD算子从对数据操作来讲大致分为两类: 转换(transformations)和行动(action) 转换算子: 将一个RDD转换为另一个R

摸鱼专家
4年前
6.5k
129
评论

Spark 三大数据结构之 RDD的行动算子

Spark核心编程的三大数据结构之 RDD基础编程 (二)

RDD依赖关系 4.1 RDD 血缘关系 RDD只支持粗粒度转换 5.RDD持久化 6.RDD分区器 7.RDD文件读取与保存

摸鱼专家
4年前
6.8k
141
评论

Spark核心编程的三大数据结构之 RDD基础编程 (二)

Spark 常规性能调优之 RDD优化、调节本地化等待时长

宝我今天跟文了，跟的想你的文，常规性能调优二：RDD优化 RDD复用在对RDD进行算子时，要避免相同的算子和计算逻辑之下对RDD进行重复的计算对上图中的RDD计算架构进

摸鱼专家
4年前
7.0k
129
3

Spark 常规性能调优之 RDD优化、调节本地化等待时长

带你入坑大数据（四）--- 资源调度框架Yarn

在MapReduce的时候也许很多人会有这种疑问：写了MR后，map task和reduce task是如何在多节点上并行执行的，而且又是怎么决定哪个任务执行再哪个节点上的？其实这些问题都是和这个Yarn有关。因为Yarn这个框架其实不仅仅是支持MR，还可以运行各种各样的程序。…

说出你的愿望吧
6年前
5.2k
38
2

简单介绍 HDFS，MapReduce，Yarn 的架构思想和原理

大数据技术其实是分布式技术在数据处理领域的创新型应用，其本质就是利用更多的计算机组成一个集群，提供更多的计算资源，从而满足更大的计算压力要求。说的通俗易懂一些，就是大数据技术的诞生解决的就是数据 ..

大数据梦想家
4年前
2.0k
10
评论

简单介绍 HDFS，MapReduce，Yarn 的架构思想和原理

带你入坑大数据（二） --- HDFS的读写流程和一些重要策略

Distributed FileSystem顾名思义是一个分布式文件系统，它会通过RPC的方式远程过程调用NameNode里的open方法，这个open方法有什么作用呢，就是获取要读的文件的file block locations，也就是文件的block的位置，在上一讲我们也已…

说出你的愿望吧
6年前
5.8k
53
11

HDFS的基础总结及架构演进

HDFS的小总结，包括存储策略，架构演进，元数据管理，双缓冲机制···等内容，之前也有两篇关于HDFS的内容，总得来说算是介绍地比较详细了

说出你的愿望吧
5年前
3.7k
62
5

字节跳动10万节点HDFS集群多机房架构演进之路

随着公司业务的高速发展，字节跳动目前 HDFS 服务的规模已经到达“双 10”的级别：单集群节点 10 万台级别、单集群数据量达到 10EB 级别。

字节跳动技术团队
4年前
14k
16
评论

字节跳动10万节点HDFS集群多机房架构演进之路

什么是HDFS？算了，告诉你也不懂。

上一篇已经讲解了「大数据入门」的相关基础概念和知识了，这篇我们来学学HDFS。如果文章有错误的地方，不妨在评论区友善指出~ 好比：我调用了一个RPC接口，我给他参数，他返回一个response给我。RPC接口做了什么事其实我都不知道的（可能这个RPC接口又调了其他的RPC接口）…

Java3y
6年前
3.5k
45
7