大数据

大数据

大数据

Hadoop生态、Spark等

等 2 人订阅共11篇文章创建于2022-03-01

Hadoop学习笔记 - 07MapReduce ReduceTask源码解析

本文简单介绍了ReduceTask的运行步骤，重点介绍了ReduceTask是如何使用迭代器模式进行数据的读取，规避了优先内存处理大数据会出现OOM的问题。

4年前
1.1k
40
评论

Hadoop学习笔记 - 06MapReduce MapTask源码解析

本文主要介绍了MapTask的工作流程，包括数据通过split清单进行读取、如何写入buffer以及如何溢写。

4年前
486
38
评论

Hadoop学习笔记 - 05MapReduce客户端源码解析

通过学习MapReduce的客户端源码，进一步了解split切片与block的关系，以及分治与计算向数据移动的思想。

4年前
366
35
评论

Hadoop学习笔记 - 04MapReduce调度原理

本篇文章由介绍MapReduce调度原理开始，引出Hadoop1.x版本中MapReduce运行架构的弊端，最后介绍Hadoop2.x以后MapReduce on Yarn模式的架构原

4年前
419
37
评论

Hadoop学习笔记 - 03MapReduce基本思想与原理

本篇文章用通俗的方式介绍MapReduce思想，以及为了解决IO问题MapReduce是如何设计的。并简单介绍了MapReduce是如何实现计算向数据移动的。

4年前
790
34
评论

Hadoop学习笔记 - 02HDFS理论基础与读写流程

本文详细介绍了HDFS的存储模型、架构设计以及读写流程，作为Hadoop计算层分治和并行计算的核心，为后续介绍MapRedcue打下了基础。

4年前
452
37
评论

Hadoop学习笔记 - 01大数据启蒙

写在前面：学习大数据之前，首先要具备分而治之的思想。并且在了解分布式之前，还需要了解如何用单机来处理大数据问题。因为分布式的本质还是要榨干每台单机的性能。

4年前
349
35
评论

Spark ML代码框架解读

本文通过一个简单的建模流程来解读Spark ML代码框架，了解了优秀的框架是如何抽象和解剖复杂问题之后，再简单说明了解了架构之后可以在这个基础上做什么。

5年前
1.6k
32
评论

Yarn Fair Scheduler详解

Yarn包含了三种调度模式：FIFO、Capicity和Fair。Fair Scheduler作为一种公平调度器，在生产环境中经常会碰到任务阻塞或莫名其妙被杀死重跑的情况，有必要详细了解后再使用。

5年前
3.0k
34
评论

Cassandra由读操作时的内存波动理解读取过程

写在前面：本文主要梳理了Cassandra读数据的过程，列举了几个常用参数，尝试解释了在读取操作中内存变化的原因。但是关于内存变化还是有疑点，本文也会抛出，待阅读源码后再来补充。文章参考：https://docs.datastax.com/en/cassandra-oss/3…

5年前
1.2k
32
评论

DataX同步数据至MySQL出现死锁

写在前面：前段时间使用DataX从Hive同步数据到MySQL，出现了死锁的报错。MySQL目标表是InnoDB，存在唯一索引。DataX的两个关键参数job.setting.speed.channel=2和writeMode=replace。本文通过描述InnoDB的锁原理…

5年前
4.7k
34
1