大数据 - tom_and_cat的收藏集 - 掘金

大数据

更多收藏集

14篇文章 · 0订阅

带你快速上手HBase | HBase读写性能优化

一个系统上线之后，开发和调优将会一直伴随在系统的整个生命周期中，HBase也不例外。今天我们要学习如何进行HBase读写性能调优，以获取最大的读写效率。采用批量写，可以减少客户端到RegionServer之间的RPC的次数，提高写入性能。批量写请求要么全部成功返回，要么抛出异…

java精彩汇总
6年前
3.7k
3
评论

「从零单排HBase 11」HBase二级索引解决方案

HBase一个令人惋惜的地方，就是不支持二级索引。因此，社区有了很多补充方案来填补HBase的二级索引能力的缺陷。今天，我们就来看看有哪些二级索引方案，通过对比各个方案的优缺点，并结合我们的具体场景做出二级索引方案选型。 HBase系统单纯从解决大数据实时读写问题角度出发，重…

阿丸笔记
5年前
1.5k
点赞
评论

万字+20张图，带你到HBase的世界遨游

1HBase浅析1.1HBase是啥HBase是一款面向列存储，用于存储处理海量数据的NoSQL数据库。它的理论原型是Google的BigTable论文。你可以认为HBase是一个高可靠性、高性能、面

烂猪皮
5年前
1.4k
15
2

大数据必备10道海量数据处题目，你会几道？

点击上方 "云祁QI"关注, “星标”一起成长十道海量数据处理面试题 1、海量日志数据，提取出某日访问百度次数最多的那个IP。此题，在我之前的一篇文章算法里头有所提到，当时给出的方案是：IP的数目

云祁
4年前
1.1k
6
1

HBase的架构设计是真的牛！

今天为大家带来的内容是HBase的架构设计，讲讲HBase的架构设计为什么这么牛？本文内容不会很长，全是老刘总结的精华，大家不可错过！ 1背景我们要提

大数据老刘
5年前
657
8
评论

HBase的架构设计是真的牛！

spark入门笔记

用户编写的Spark程序，通过一个有main方法的类执行,完成一个计算任务的处理。它是由一个Driver程序和一组运行于Spark集群上的Executor组成弹性分布式数据集。RDD是Spark的核心数据结构，可以通过一系列算子进行操作。当RDD遇到Action算子时，将之前…

fengye
8年前
6.0k
20
3

Hello Spark! | Spark，从入门到精通

Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架，是专为大规模数据处理而设计的快速通用的大数据处理引擎及轻量级的大数据处理统一平台。当我们在谈 Spark 的时候可能是指一个 Spark 应用程序，替代 Ma…

美图数据技术团队
7年前
12k
157
5

Hello Spark! | Spark，从入门到精通

hadoop-MapReduce流程解析

1. 待处理文本这里假设是/user/input目录下的ss.txt 文件，大小为200M。 2. 客户端submit（） 3. 提交信息将刚刚获取的任务规划信息，提交到资源管理器上，我们这里用Yarn。 4. RM计算MapTask数量接着向Yarn的RM申请资源，RM…

Zouxxyy
6年前
1.7k
2
评论

Hadoop YARN 架构详解

YARN是MRv1基础上演化而来的，克服了MRv1中的各种局限性。在正式的介绍YARN之前，我们先要了解MRv1的一些局限性，这可概括为以下几个方面：扩展性差：在MRv1中，JobTracker同时兼备了资源管理和作业控制两个功能，这个成为系统的一个最大瓶颈，严重制约了Had…

Michaelhbjian
6年前
4.6k
1
评论

HBase 存储原理

底层存储结构如下，行式存储是存储玩一行，接着存储下一行，而列式存储是把一列数据存储在一起，由于列数据不存在一列存完了的概念，所以列数据与列数据之间不是紧挨着的，而是相互分离的。上面对行式存储与列式存储的介绍是从比较宽泛的角度出发的，并不是说 HBase 是列式存储，它的内部设…

我妻礼弥
5年前
4.2k
6
4