首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据
订阅
tom_and_cat
更多收藏集
微信扫码分享
微信
新浪微博
QQ
14篇文章 · 0订阅
带你快速上手HBase | HBase读写性能优化
一个系统上线之后,开发和调优将会一直伴随在系统的整个生命周期中,HBase也不例外。今天我们要学习如何进行HBase读写性能调优,以获取最大的读写效率。 采用批量写,可以减少客户端到RegionServer之间的RPC的次数,提高写入性能。批量写请求要么全部成功返回,要么抛出异…
「从零单排HBase 11」HBase二级索引解决方案
HBase一个令人惋惜的地方,就是不支持二级索引。因此,社区有了很多补充方案来填补HBase的二级索引能力的缺陷。 今天,我们就来看看有哪些二级索引方案,通过对比各个方案的优缺点,并结合我们的具体场景做出二级索引方案选型。 HBase系统单纯从解决大数据实时读写问题角度出发,重…
万字+20张图,带你到HBase的世界遨游
1HBase浅析1.1HBase是啥HBase是一款面向列存储,用于存储处理海量数据的NoSQL数据库。它的理论原型是Google的BigTable论文。你可以认为HBase是一个高可靠性、高性能、面
大数据必备10道海量数据处题目,你会几道?
点击上方 "云祁QI"关注, “星标”一起成长 十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目
HBase的架构设计是真的牛!
今天为大家带来的内容是HBase的架构设计,讲讲HBase的架构设计为什么这么牛?本文内容不会很长,全是老刘总结的精华,大家不可错过! 1背景我们要提
spark入门笔记
用户编写的Spark程序,通过一个有main方法的类执行,完成一个计算任务的处理。它是由一个Driver程序和一组运行于Spark集群上的Executor组成 弹性分布式数据集。RDD是Spark的核心数据结构,可以通过一系列算子进行操作。当RDD遇到Action算子时,将之前…
Hello Spark! | Spark,从入门到精通
Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架,是专为大规模数据处理而设计的快速通用的大数据处理引擎及轻量级的大数据处理统一平台。 当我们在谈 Spark 的时候可能是指一个 Spark 应用程序,替代 Ma…
hadoop-MapReduce流程解析
1. 待处理文本 这里假设是/user/input目录下的ss.txt 文件,大小为200M。 2. 客户端submit() 3. 提交信息 将刚刚获取的任务规划信息,提交到资源管理器上,我们这里用Yarn。 4. RM计算MapTask数量 接着向Yarn的RM申请资源,RM…
Hadoop YARN 架构详解
YARN是MRv1基础上演化而来的,克服了MRv1中的各种局限性。在正式的介绍YARN之前,我们先要了解MRv1的一些局限性,这可概括为以下几个方面: 扩展性差:在MRv1中,JobTracker同时兼备了资源管理和作业控制两个功能,这个成为系统的一个最大瓶颈,严重制约了Had…
HBase 存储原理
底层存储结构如下,行式存储是存储玩一行,接着存储下一行,而列式存储是把一列数据存储在一起,由于列数据不存在一列存完了的概念,所以列数据与列数据之间不是紧挨着的,而是相互分离的。 上面对行式存储与列式存储的介绍是从比较宽泛的角度出发的,并不是说 HBase 是列式存储,它的内部设…