大数据 - 阿宝爱学习的收藏集 - 掘金

大数据

阿宝爱学习

更多收藏集

3篇文章 · 0订阅

MySQL同步数据到HBase

注意：upperBound和numPartitions两个参数是有关联的，upperBound / numPartitions = 每个分区需要写入多少条数据，所以最好就是搞清楚数据总量是多少，因为笔者就遇到这么一个问题，本来总量是4000W条数据，笔者设置upperBound…

说出你的愿望吧
5年前
3.6k
40
5

我终于看懂了HBase，太不容易了...

在我还不了解分布式和大数据的时候已经听说过HBase了，但对它一直都半知不解，这篇文章来讲讲吧。在真实生活中，最开始听到这个词是我的一场面试，当年我还是个『小垃圾』，现在已经是个『大垃圾』了。面试官当时给了一个场景题问我，具体的题目我忘得差不多了，大概就是考试与试题的一个场…

Java3y
5年前
12k
139
11

我终于看懂了HBase，太不容易了...

一文带你过完Spark RDD的基础概念

上一篇权当吹水了，从这篇开始进入正题。 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合. 一个分区（Partition）列表，组成了该RDD的数据…

说出你的愿望吧
6年前
5.1k
63
10