首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据
我很ruo
创建于2024-01-05
订阅专栏
大数据技术专栏
等 10 人订阅
共21篇文章
创建于2024-01-05
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Elasticsearch 集群规模和容量规划
本文首先从 Elasticsearch(ES)的架构原理、工作流程入手,介绍了 ES 各个组件在各个环节的资源需要,随后给出了 ES 集群规模和容量规划的具体方法和实践.
深入理解 Spark(四)Spark 内存管理模型
# Spark 中的内存管理和资源管理模型 Executor 进程作为一个 JVM 进程,其内存管理建立在 JVM 的内存管理之上,整个大致包含两种方式:堆内内存和堆外内存。 ![在这里插入图片描述]
深入理解 Spark(三)SparkTask 执行与 shuffle 详解
本章节将带读者深入探讨 spark 的 task 执行过程,以及 spark shuffle 机制的分类与演进,一起领略批处理之王 spark 的设计精妙之处。
深入理解 Spark(二)SparkApplication 提交和运行源码分析
本章节结合 spark 源码介绍了 spark application 的提交与运行过程,可供大数据批处理从业者或感兴趣人员研究和学习。
深入理解 Spark(一)spark 运行模式简介与启动流程源码分析
目前在大数据离线计算、批处理场景下,计算引擎基本上被 spark 一统天下。大数据技术日趋成熟的今天,从业者仍然会不时地对这些开源框架的原理进行剖析与温习,温故知新,推陈出新,革故鼎新。
深入理解 Flink(八)Flink Task 部署初始化和启动详解
Flink 分布式任务的实际执行最终体现在 task 的执行中,本章节深入浅出地剖析了 Flink task 的执行过程,并以 OneInputStreamTask 为典型介绍了 task 执行过程。
深入理解 Flink(七)Flink Slot 管理详解
Flink 的 slot 管理分为 ResourceManager、TaskExecutor、JobMaster 3 个部分,本章节结合 Flink 源码对上述 3 个部分的协作关系、具体实现进行了深
深入理解 Flink(六)Flink Job 提交和 Flink Graph 详解
本章节重点介绍了 Flink Job 提交过程,包含了 StreamGraph 到 JobGraph 在客户端的转换和优化,并给出了源码级剖析。虽然是以 per-job 模式下的提交过程为例,但在 s
深入理解 Flink(五)Flink Standalone 集群启动源码剖析
对 Flink 架构拥有源码级理解是大数据实时计算从业人员的必备条件,从本章节开始,将按照 Flink 集群启动、Flink Job 提交、Slot 管理、Task 执行的顺序一一展开。
深入理解 Flink(四)Flink Time+WaterMark+Window 深入分析
Event Time + WaterMark 是 Flink 处理乱序数据的有效机制,本章节将深入分析 Flink 的 Time 与 WaterMark,使读者对其有更为深刻的理解。
深入理解 Flink(三)Flink 内核基础设施源码级原理详解
本章节主要介绍了 Flink 的通信框架 akka、Flink on YARN 的三种部署模式、Flink 高可用服务、Flink 文件服务 BlobService。读者可从中进一步了解 Flink。
深入理解 Flink(二)Flink StateBackend 和 Checkpoint 容错深入分析
状态和精准一次是 Flink 流式计算引擎的一大特色,本章节从状态、状态后端、checkpoint 算法逐步为读者展示了 Flink 状态机制设计的绝妙之处。
深入理解 Flink(一)Flink 架构设计原理
Flink 是当今最主流的大数据流式计算引擎,没有之一。本文将解开 Flink 的神秘面纱,从 MapReduce、Spark、Flink 的技术演进入手,引出 Flink 的核心设计原理。
深入理解 Hadoop (七)YARN资源管理和调度详解
YARN 的核心功能是资源管理与任务调度,本章节将介绍 YARN 的资源管理与任务调度部分,包括队列配置、三种调度器详解。
深入理解 Hadoop (六)YARN核心设计理念与工作流程剖析
YARN 是 Hadoop 生态中的资源管理与调动框架,用于计算资源的管理和分配,历经 MapReduce、Spark、Flink 后仍经久不衰,研究 YARN 的核心设计理念有助于理解其本质。
深入理解 Hadoop (五)YARN核心工作机制
YARN 可以说是 Hadoop 中设计最为复杂的框架了,本章节先从 YARN 的核心工作机制入手,为读者梳理 YARN 的核心设计理念,方便后续章节深入研究 YARN。
深入理解 Hadoop (四)HDFS源码剖析
本章将从集群启动、文件上传下载方面深度剖析 HDFS 源码,读者将全方位地了解到 HDFS 的源码实现,分布式存储系统的设计精髓。
深入理解 Hadoop (三)HDFS文件系统设计实现
本章节主要介绍了 HDFS 的 NameNode 和 DataNode 的设计思想与源码实现,读者可从中得到分布式文件系统设计的基本思路。
深入理解 Hadoop (二)HDFS架构演进
HDFS 主打海量文件存储,文章将带读者解开其神秘面纱。首先将从架构演进开始,从分布式文件系统首先要解决的问题出发,逐步介绍元数据管理、HA 高可用集群、联邦集群,以及企业级实践。
深入理解 Hadoop (一)网络通信架构与源码浅析
Apache Hadoop 是大数据技术的基石,研究大数据不妨先从 Hadoop 开始。而对于分布式框架,研究重点不外乎通信协议、一致性保证两部分。本章节先从通信协议入手,后续章节将介绍一致性保障。
下一页