首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据
胖DA
创建于2022-03-01
订阅专栏
Hadoop生态、Spark等
等 2 人订阅
共11篇文章
创建于2022-03-01
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Hadoop学习笔记 - 07MapReduce ReduceTask源码解析
本文简单介绍了ReduceTask的运行步骤,重点介绍了ReduceTask是如何使用迭代器模式进行数据的读取,规避了优先内存处理大数据会出现OOM的问题。
Hadoop学习笔记 - 06MapReduce MapTask源码解析
本文主要介绍了MapTask的工作流程,包括数据通过split清单进行读取、如何写入buffer以及如何溢写。
Hadoop学习笔记 - 05MapReduce客户端源码解析
通过学习MapReduce的客户端源码,进一步了解split切片与block的关系,以及分治与计算向数据移动的思想。
Hadoop学习笔记 - 04MapReduce调度原理
本篇文章由介绍MapReduce调度原理开始,引出Hadoop1.x版本中MapReduce运行架构的弊端,最后介绍Hadoop2.x以后MapReduce on Yarn模式的架构原
Hadoop学习笔记 - 03MapReduce基本思想与原理
本篇文章用通俗的方式介绍MapReduce思想,以及为了解决IO问题MapReduce是如何设计的。并简单介绍了MapReduce是如何实现计算向数据移动的。
Hadoop学习笔记 - 02HDFS理论基础与读写流程
本文详细介绍了HDFS的存储模型、架构设计以及读写流程,作为Hadoop计算层分治和并行计算的核心,为后续介绍MapRedcue打下了基础。
Hadoop学习笔记 - 01大数据启蒙
写在前面: 学习大数据之前,首先要具备分而治之的思想。并且在了解分布式之前,还需要了解如何用单机来处理大数据问题。因为分布式的本质还是要榨干每台单机的性能。
Spark ML代码框架解读
本文通过一个简单的建模流程来解读Spark ML代码框架,了解了优秀的框架是如何抽象和解剖复杂问题之后,再简单说明了解了架构之后可以在这个基础上做什么。
Yarn Fair Scheduler详解
Yarn包含了三种调度模式:FIFO、Capicity和Fair。Fair Scheduler作为一种公平调度器,在生产环境中经常会碰到任务阻塞或莫名其妙被杀死重跑的情况,有必要详细了解后再使用。
Cassandra由读操作时的内存波动理解读取过程
写在前面: 本文主要梳理了Cassandra读数据的过程,列举了几个常用参数,尝试解释了在读取操作中内存变化的原因。但是关于内存变化还是有疑点,本文也会抛出,待阅读源码后再来补充。文章参考:https://docs.datastax.com/en/cassandra-oss/3…
DataX同步数据至MySQL出现死锁
写在前面: 前段时间使用DataX从Hive同步数据到MySQL,出现了死锁的报错。MySQL目标表是InnoDB,存在唯一索引。DataX的两个关键参数job.setting.speed.channel=2和writeMode=replace。本文通过描述InnoDB的锁原理…