Yanko24

赞

3

|

搜索文章

Spark常见的Transformation算子（二）

Spark常见的Transformation算子（二）初始化数据filter过滤操作，对RDD中的数据按照函数进行过滤Scala版本运行结果mapmap的输入变换函数引用于RDD中的所有元素Scala

6年前
234
点赞
评论

Spark常见的Transformation算子（一）

Spark常见的Transformation算子（一）parallelize将一个存在的集合，转换成一个RDDscala版本运行结果makeRDD将一个存在的集合，转换成一个RDDscala版本运行结

6年前
219
点赞
评论

布隆过滤器

布隆过滤器（Bloom Filter）是一个叫做Bloom的人在1970年提出的。我们可以将它看作是由二进制向量（或者说位数据）和一系列的随机映射函数（哈希函数）两部分组成的数据结构。相比于List/Map/Set等数据结构，它占用的空间更少而且效率更高，但是缺点是返回的结果是…

6年前
335
点赞
评论

Spark的分区器（Partitioner）

HashPartitioner分区原理是对于给定的key，计算其hashCode，并除以分区的个数取余，如果余数小于0，则余数+分区的个数，最后返回的值就是这个key所属的分区ID，当key为null值是返回0。源码在org.apache.spark包下，实现如下： HashP…

6年前
2.3k
点赞
评论

水塘抽样（Reservoir sampling）

题目：给出一个数据流，这个数据流的长度很大或者未知。并且对该数据流中的数据只能访问一次。请写出一个随机选择算法，使得数据流中所有数据被选中的概率相等。这个问题的扩展就是：如何从未知或者很大样本空间随机的取k个数？或者说，数据流长度为N行，要随机抽取k行，则每一行被抽取的概率为…

6年前
1.9k
点赞
评论

CentOS7安装MySQL5

1. 配置yum源 2. 安装yum源 3. 安装MySQL 4. 启动MySQL服务 5. 查看mysql的初始密码 6. 登录mysql，修改密码

6年前
107
点赞
评论

MySQL主从架构配置

1. 准备 2. 主节点配置（master） 3. 从节点配置（slave1/slave2） 4. 进入master节点 5. 进入slave1/slave2节点 6. 简单测试

6年前
180
点赞
评论

个人成就

文章被点赞 1

文章被阅读 17,884

加入于

2019-12-31