BigData - 二水ERSHUI的收藏集 - 掘金

BigData

更多收藏集

7篇文章 · 0订阅

入门Hbase，看这一篇就够了

团队内部要分享HBase的知识，之前研究了一段时间，知识比较零散，这一次就系统化的整理一番，之后在想到Hbase的时候，看着一篇就够了。 Hbase是一种NoSQL数据库，这意味着它不像传统的RDBMS数据库那样支持SQL作为查询语言。Hbase是一种分布式存储的数据库，技术上…

AI贺贺
7年前
49k
162
7

常用Maven打包方式

在提交大数据作业到集群上运行时，通常需要先将项目打成 JAR 包。这里以 Maven 为例，常用打包方式如下：以下分别进行详细的说明。不在 POM 中配置任何插件，直接使用 mvn package 进行项目打包，这对于没有使用外部依赖包的项目是可行的。但如果项目中使用了第三…

爱Rap篮球写代码的蔡徐
6年前
18k
16
评论

Azkaban 3.x 编译及部署

Azkaban 在 3.0 版本之后就不提供对应的安装包，需要自己下载源码进行编译。下载所需版本的源码，Azkaban 的源码托管在 GitHub 上，地址为 https://github.com/azkaban/azkaban 。可以使用 git clone 的方式获取源码…

heibaiying
6年前
2.7k
2
评论

如何搭建一个Hadoop集群

在学习大数据系统时，搭建一个 Hadoop 是基本的操作，很多大数据上层的应用都依赖 HDFS，本文介绍一种搭建 Hadoop 集群的方法。在之前我写过一篇搭建本地服务器集群的方法，如果有需要，可以参考这里搭建一个本地的服务器集群。在开始搭建 Hadoop 之前，还需要做一…

Rayjun
5年前
5.4k
4
2

滴滴HBase大版本滚动升级之旅

1.背景目前HBase服务在我司共有国内、海外共计11个集群，总吞吐超过1kw+/s，服务着地图、普惠、车服、引擎、金融等几乎全部部门与业务线。然而有一个问题持续困扰着我们：版本较社区落后较多——HB

已注销
5年前
1.1k
1
1

笔记-尚硅谷大数据项目数据仓库-电商数仓V1.2新版

读取LZO文件时，需要先创建索引，才可以进行切片。 Apache：运维麻烦，需要自己调研兼容性。 CDH：国内使用最多，不开源，已开始收费。老版本不再进行组件后续兼容性的更新。 HDP：开源，不稳定，已被CDH收购，合并为CDP。 128G内存，20核物理CPU，40线程，8T…

李阿九
5年前
3.0k
7
2

Spark streaming消费Kafka的正确姿势

在游戏项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者一端，我们将数据按照每天的拉取时间存入了Kafka当中，而在消费者一端，我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式…

王知无
7年前
9.7k
19
1