Scala - 今天的牛肉面还不错吧的收藏集 - 掘金

Scala

今天的牛肉面还不错吧

更多收藏集

7篇文章 · 0订阅

我终于看懂了HBase，太不容易了...

在我还不了解分布式和大数据的时候已经听说过HBase了，但对它一直都半知不解，这篇文章来讲讲吧。在真实生活中，最开始听到这个词是我的一场面试，当年我还是个『小垃圾』，现在已经是个『大垃圾』了。面试官当时给了一个场景题问我，具体的题目我忘得差不多了，大概就是考试与试题的一个场…

Java3y
5年前
12k
139
11

我终于看懂了HBase，太不容易了...

【从零单排HBase】全面认识HBase架构（建议收藏）

在网上看过很多HBaes架构相关的文章，内容深浅不一，直到发现了一篇MapR官网的文章https://mapr.com/blog/in-depth-look-hbase-architecture/#.VdMxvWSqqko，写得实在太sheng dong了。因此，以这篇文章作…

阿丸笔记
6年前
2.3k
11
评论

Kudu+Impala介绍 | 微店数据科学团队博客

Kudu+Impala介绍 | 微店数据科学团队博客

赵安家
8年前
17k
26
2

从零开始认识 Spark

Spark的知识点很多，决定分多P来慢慢讲🤣，比较关键的RDD算子其实已经写了大半，奈何内容还是太多了就不和这篇扯皮的放一起了。 spark是在Hadoop基础上的改进，是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用的并行计算…

说出你的愿望吧
6年前
4.9k
64
13

关于Spark基础的一些小问题补充

DAGScheduler拿到DAG有向无环图之后，按照宽依赖进行stage的划分。每一个stage内部有很多可以并行运行的task，最后封装在一个一个的taskSet集合中，然后把taskSet发送给TaskScheduler TaskScheduler得到taskSet集合之…

说出你的愿望吧
6年前
2.5k
29
1

一文带你过完Spark RDD的基础概念

上一篇权当吹水了，从这篇开始进入正题。 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合. 一个分区（Partition）列表，组成了该RDD的数据…

说出你的愿望吧
6年前
5.1k
63
10

Java 开发看的 Scala 入门

对于 Scala 语言其实很早有所耳闻，但没有真正进一步了解，只知道这门语言在大数据领域很火。正如前几年大数据开发的兴起，也着实让这门基于 JVM 的语言火了一把。由于近期开始参与公司的大数据项目，面对大数据量计算处理需求，基于目前自己 Java 的技术栈远远不够，不得不引入 …

程序员闻人
6年前
4.7k
41
9