hadoop - NorthrendSnow的收藏集 - 掘金

hadoop

更多收藏集

11篇文章 · 0订阅

Hive 系列（一）—— Hive 简介及核心概念

Hive 是一个构建在 Hadoop 之上的数据仓库，它可以将结构化的数据文件映射成表，并提供类 SQL 查询功能，用于查询的 SQL 语句会被转化为 MapReduce 作业，然后提交到 Hadoop 上运行。执行延迟高，不适合做数据的实时处理，但适合做海量数据的离线处理。…

heibaiying
6年前
2.8k
8
2

HDFS知识体系（知其然，知其所以然）

HDFS是Hadoop体系的基础，不知道各位怎么对待HDFS。反正我更多的关注一些应用层的东西，对于HDFS多有忽视。为此耗时两天半整理了HDFS的知识体系，力求知其然也要知其所以然。

DaveCui
3年前
3.2k
15
1

HDFS知识体系（知其然，知其所以然）

Hadoop(HDFS)概述、HDFS产生背景、HDFS定义、HDFS优缺点、HDFS组成架构、HDFS文件块大小（面试重点）

高容错性，数据自动保存多个副本。它通过增加副本的形式，提高容错性、适合处理大数据，数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据；文件规模：能够处理百万规模以上的文件数量，数量相当之大、

Redamancy_06
3年前
1.2k
2
评论

大数据生态圈及分布式文件系统HDFS实践-part2

开启掘金成长之旅！这是我参与「掘金日新计划 · 12 月更文挑战」的第1天。 HDFS 被设计成用来使用低廉的服务器来进行海量数据的存储，那是怎么做到的呢？ 1、分散存储 2、冗余备份

落叶飘雪
3年前
1.4k
5
1

带你入坑大数据（一） --- HDFS基础概念篇

从零开始的高并发系列我们已经把 zookeeper 给更新完了，顺带一提之前的zookeeper并没有结合大数据来进行说明。重新开个坑一方面是一直都想找个理由来总结一下大数据方面的东西，另一方面则是抓住时代的走向吧，毕竟也是为了自己，所以废话不多说我们就开始吧。单个文件比较大…

说出你的愿望吧
6年前
7.8k
93
5

Streaming-大数据的未来

分享一篇关于实时流式计算的经典文章，这篇文章名为Streaming101:Theworldbeyondbatch那么流计算如何超越批处理呢？从这几个方面说明：实时流计算系统，数据处理模式，还有大数据的

大数据流动
6年前
1.3k
3
评论

大数据技术漫谈 ——从Hadoop、Storm、Spark、HBase到Hive、Flink、Lindorm

一、前言笔者曾效力于新浪广告DMP组，跑过MapReduce，也写过Storm、Spark Streaming、Hive；也曾作为阿里巴巴回血红包的技术负责人，使用Blink扛住双十一80万QPS流

字节跳动ADFE团队
4年前
6.2k
50
2

大数据之hadoop / hive / hbase 的区别是什么？有什么应用场景？

1. hadoop 它是一个分布式计算+分布式文件系统，前者其实就是 MapReduce，后者是 HDFS 。后者可以独立运行，前者可以选择性使用，也可以不使用 2. hive 通俗的说是一个数据仓库，仓库中的数据是被hdfs管理的数据文件，它支持类似sql语句的功能，你可以通…

RunFromHere
7年前
12k
36
1

Hadoop 学习（二）——集群环境搭建（完全分布式）

携手创作，共同成长！这是我参与「掘金日新计划 · 8 月更文挑战」的第14天，点击查看活动详情 ⭐️前面的话⭐️ Hadoop入门 2 运行环境搭建（开发重点） 2.1 模板虚拟机环境准备 0）安装模

Lemonade22
3年前
945
1
1

Hadoop入门体系介绍

我本身从事的大数据开发，大数据Hadoop,HDFS,Hive,Hbase,Spark,Flink等概念可以说是耳熟能详，但是我确实很少深入的理解他们。本科期间倒是系统的学过，但是当时仅仅是为了应付考

DaveCui
3年前
2.0k
10
评论