首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据
订阅
用户7765260787556
更多收藏集
微信扫码分享
微信
新浪微博
QQ
15篇文章 · 0订阅
1万字Flink算子大全手册:实战 + 原理干货
Flink基于流编程模型,内置了很多强大功能的算子,可以帮助我们快速开发应用程序。耗费一周整理Flink算子手册,希望能够帮助各位小伙伴~
Spark 三大数据结构 之 RDD的行动算子
这是我参与更文挑战的第4天,活动详情查看:更文挑战 介绍 RDD算子从对数据操作来讲大致分为两类: 转换(transformations)和行动(action) 转换算子: 将一个RDD转换为另一个R
Spark核心编程的三大数据结构 之 RDD基础编程 (二)
RDD依赖关系 4.1 RDD 血缘关系 RDD只支持粗粒度转换 5.RDD持久化 6.RDD分区器 7.RDD文件读取与保存
Spark 常规性能调优 之 RDD优化、调节本地化等待时长
宝我今天跟文了,跟的想你的文,常规性能调优二:RDD优化 RDD复用 在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算 对上图中的RDD计算架构进
带你入坑大数据(四)--- 资源调度框架Yarn
在MapReduce的时候也许很多人会有这种疑问:写了MR后,map task和reduce task是如何在多节点上并行执行的,而且又是怎么决定哪个任务执行再哪个节点上的?其实这些问题都是和这个Yarn有关。因为Yarn这个框架其实不仅仅是支持MR,还可以运行各种各样的程序。…
简单介绍 HDFS,MapReduce,Yarn 的 架构思想和原理
大数据技术其实是分布式技术在数据处理领域的创新型应用,其本质就是利用更多的计算机组成一个集群,提供更多的计算资源,从而满足更大的计算压力要求。说的通俗易懂一些,就是大数据技术的诞生解决的就是数据 ..
带你入坑大数据(二) --- HDFS的读写流程和一些重要策略
Distributed FileSystem顾名思义是一个分布式文件系统,它会通过RPC的方式远程过程调用NameNode里的open方法,这个open方法有什么作用呢,就是获取要读的文件的file block locations,也就是文件的block的位置,在上一讲我们也已…
HDFS的基础总结及架构演进
HDFS的小总结,包括存储策略,架构演进,元数据管理,双缓冲机制···等内容,之前也有两篇关于HDFS的内容,总得来说算是介绍地比较详细了
字节跳动10万节点HDFS集群多机房架构演进之路
随着公司业务的高速发展,字节跳动目前 HDFS 服务的规模已经到达“双 10”的级别:单集群节点 10 万台级别、单集群数据量达到 10EB 级别。
什么是HDFS?算了,告诉你也不懂。
上一篇已经讲解了「大数据入门」的相关基础概念和知识了,这篇我们来学学HDFS。如果文章有错误的地方,不妨在评论区友善指出~ 好比:我调用了一个RPC接口,我给他参数,他返回一个response给我。RPC接口做了什么事其实我都不知道的(可能这个RPC接口又调了其他的RPC接口)…