大数据 - 雨夜同学的收藏集 - 掘金

大数据

更多收藏集

10篇文章 · 0订阅

大数据是什么？

大数据是指海量数据或巨量数据，其规模巨大到无法通过目前主流的计算机系统在合理时间内获取、存储、管理、处理并提炼以帮助使用者决策。大数据的4V特征，即Variety(多样化)、Volume(大量化)、Velocity（快速化）、Value(价值密度低)。如下图所示。其中，Var…

木可大大
8年前
2.4k
21
1

兄弟，用大白话告诉你小白都能看懂的Hadoop架构原理

Hadoop是目前大数据领域最主流的一套技术体系，包含了多种技术。包括HDFS（分布式文件系统），YARN（分布式资源调度系统），MapReduce（分布式计算系统），等等。有些朋友可能听说过Hadoop，但是却不太清楚他到底是个什么东西，这篇文章就用大白话给各位阐述一下。…

石杉的架构笔记
7年前
15k
178
30

兄弟，用大白话告诉你小白都能看懂的Hadoop架构原理

写给大数据开发初学者的话 | 附教程

经常有初学者在博客和QQ问我，自己想往大数据方向发展，该学哪些技术，学习路线是什么样的，觉得大数据很火，就业很好，薪资很高。如果自己很迷茫，为了这些原因想往大数据方向发展，也可以，那么我就想问一下，你的专业是什么，对于计算机/软件，你的兴趣是什么？是计算机专业，对操作系统、硬件、

勿忘初心321
8年前
9.7k
148
6

HBase 深入浅出

提到大数据的存储，大多数人首先联想到的是 Hadoop 和 Hadoop 中的 HDFS 模块。大家熟知的 Spark、以及 Hadoop 的 MapReduce，可以理解为一种计算框架。而 HDFS，我们可以认为是为计算框架服务的存储层。因此不管是 Spark 还是 MapRe

CryptoPunk
8年前
3.0k
74
3

Spark Streaming调优参数及最佳实践深入剖析-Spark商业调优实战

本套技术专栏是作者（秦凯新）平时工作的总结和升华，通过从真实商业环境抽取案例进行总结和分享，并给出商业应用的调优建议和集群环境容量规划等内容，请持续关注本套博客。QQ邮箱地址：1120746959@qq.com，如有任何商业交流，可随时联系。 HA高可用性：High Avail…

技术洞察TIC
7年前
3.5k
9
3

1. HDFS 2. MapReduce 1. YARN

xiaofengqqcom123
6年前
964
点赞
评论

Hadoop YARN 介绍

YARN 是 Hadoop 集群的资源管理系统。Hadoop2.0 对 MapReduce 框架做了彻底的设计重构。YARN 的基本设计思想是将 MRv1 中的 JobTracker 拆分成了两个独立的服务：一个全局的资源管理器 ResourceManager 和每个应用程序特有的 ApplicationMaster。其中 ResourceManager 负责整个系统的资源管理和分配，而 ApplicationMaster 负责单个应用程序的管理。

lzslbd
9年前
6.9k
19
评论

数据仓库与数据集市建模

数据仓库建模包含了几种数据建模技术，除了之前在数据库系列中介绍过的ER建模和关系建模，还包括专门针对数据仓库的维度建模技术。本文将详细介绍数据仓库维度建模技术，并重点讨论三种基于ER建模/关系建模/维度建模的数据仓库总体建模体系：规范化数据仓库，维度建模数据仓库，以及独立数据…

烂猪皮
6年前
411
2
评论

带你入坑大数据（三） --- MapReduce介绍

简单回顾一下HDFS的写流程，MapReduce基础知识及机制了解，更详细的可以到我主页之后的MapReduce章节去查看

说出你的愿望吧
6年前
4.3k
27
4