hadoop

hadoop

hadoop

hadoop学习

等 1 人订阅共14篇文章创建于2023-02-19

MapReduce实现TopN的效果

最近在学习Hadoop的MapReduce，此处记录一下如何实现 `TopN` 的效果，以及在MapReduce中如何实现 `自定义分组`。

2年前
855
1
评论

MapReduce的基础知识

Hadoop MapReduce 是一个分布式计算框架，用于轻松编写分布式应用程序，这些应用程序以可靠，容错的方式并行处理大型硬件集群（数千个节点）上的大量数据

2年前
227
点赞
评论

hdfs的透明加密记录

我们知道，在hdfs中，我们的数据是以block块存储在我们的磁盘上的，那么默认情况下，它是以密文存储的，还是以明文存储的呢？如果是明文存储的，那么是否就不安全呢？那么在hdfs中是如何做才能做到数据

2年前
764
1
评论

hdfs中acl权限管理的简单实用

在我们开发的过程中有这么一种场景， `/projectA` 目录是 `hadoopdeploy`用户创建的，他对这个目录有`wrx`权限，同时这个目录属于`supergroup`，在这个组中的用户也具

2年前
364
点赞
评论

hdfs开启回收站(废纸篓)

我们知道，在mac系统上删除文件，一般情况下是可以进入废纸篓里的，如果此时我们误删除了，还可以从废纸篓中恢复过来。那么在hdfs中是否存在类似mac上的废纸篓这个功能呢？答案是存在的。

2年前
170
点赞
评论

hdfs集群的扩容和缩容

当我们的hadoop集群运行了一段时间之后，原有的数据节点的容量已经不能满足我们的存储了，这个时候就需要往集群中增加新的数据节点。此时我们就需要动态的对hdfs集群进行扩容操作(节点服役)。

3年前
619
点赞
评论

hdfs disk balancer 磁盘均衡器

在我们的hadoop集群运行一段过程中，由于多种原因，数据在DataNade的磁盘之间的分布可能是不均匀。**比如：** 我们刚刚给某个DataNode新增加了一块磁盘或者集群上存在大批量的write

3年前
831
3
评论

HDFS Balancer负载均衡器

当我们的hadoop集群运行了一段时间之后，各个`DataNode`上的`数据分布`并`不一定`是`均匀分布`的。**比如说：** 我们向现有集群中添加了一个新的DataNode。

3年前
1.5k
2
评论

HDFS Short-Circuit Local Reads

在`HDFS`中，读取操作通常是通过`DataNode`。因此，当客户端要读取文件时，DataNode 会从磁盘上读取文件，然后通过`TCP套接字`将数据发送给客户端。**如果我们的客户端和数据在

3年前
329
点赞
评论

hdfs的异构存储

在我们实际的开发过程中，我们的某些数据可能经常使用，但是过了一段时间，这个数据就不怎么使用了，即我们的数据存在一个`热`、`温`、`冷`等这些特性。那么针对`数据的热度`，

3年前
451
点赞
评论

mac系统上hdfs java api的简单使用

在上一节中，我们简单学习了在命令行上如何操作hdfs shell api，此处我们通过java程序来操作一下。

3年前
141
点赞
评论

hdfs file system shell的简单使用

此处我们通过命令行，简单的学习一下 hdfs file system shell 的一些命令操作，来达到可以在命令行使用。

3年前
566
点赞
评论

Centos7搭建hadoop3.3.4分布式集群

最近在学习`hadoop`，本文记录一下，怎样在Centos7系统上搭建一个`3`个节点的`hadoop`集群。

3年前
1.2k
3
1

Centos7搭建hadoop3.3.4分布式集群

Centos7系统编译Hadoop3.3.4

最近在学习hadoop，此篇文章简单记录一下通过源码来编译hadoop。为什么要重新编译hadoop源码，是因为为了匹配不同操作系统的本地库环境。

3年前
381
点赞
评论

Centos7系统编译Hadoop3.3.4