宝哥大数据

CTO | 闫成数字科技

大数据，机器学习 Flink, Spark, Hbase, Kafka, ES......

赞

5

|

搜索文章

kafka--Topics and Logs

topic是被发布记录的类别或提要名称。在kafka中， topic 是多租户的，一个topic可以工多个用户订阅。每个分区都是一个有序的、不可变的记录序列，这些记录一直被附加到结构化的提交日志中。分区中的记录分别被分配一个称为偏移量（offset）...

4年前
171
点赞
评论

Java RMI 与Zookeeper

Java RMI 指的是远程方法调用 (Remote Method Invocation)。它是一种机制，能够让在某个 Java 虚拟机上的对象调用另一个 Java 虚拟机中的对象上的方法。可以用此方法调用的任何对象必须实现该远程接口。Java RMI不是什么新技术（在Ja...

4年前
521
点赞
评论

zookeeper节点创建

##一、zookeeper节点创建 ###1.###1.

4年前
206
点赞
评论

kafka 出现错误问题

1. Error while executing topic command org.apache.zookeeper.cd /uardata10/chbtmp/package/kafka_2.10-0.8.2.1../bin/kafka-topics.[root@idc0071...

4年前
395
点赞
评论

Spark--分组TopN

为了获取每个分组的topN，首先要进行分组，再对每个分组进行排序，获取TopN。1.SparkConf conf = new SparkConf().setMaster("local").JavaRDD<String> lines = jsc.JavaPairRDD<Stri...

4年前
416
点赞
评论

为了获取一列值的前五个最值，我们需要对该列数据进行排序，取前五个，但是sortByKey 是按照(key,value)格式，对key进行排序，所以我们需要将数据构建成（key， value）形式，然后按照前面Spark-二次排序，然后将key剔除，剩下value为排序好的序列...

4年前
470
点赞
评论

Spark的高级排序（二次排序）

2.使用scala.math.package com.chb.sparkDemo.import java.io.import scala.math.* 使用scala.math.this.this.this.this.if (this.getFirstKey() > other....

4年前
276
点赞
评论

Spark---Broadcast变量&Accumulators

通常情况下，当向Spark操作(如map,reduce)传递一个函数时，它会在一个远程集群节点上执行，它会使用函数中所有变量的副本。这些变量被复制到所有的机器上，远程机器上并没有被更新的变量会向驱动程序回传。在任务之间使用通用的，支持读写的共享变量是低效的。广播变量的好处，不...

4年前
946
点赞
评论

Spark之SparkStreaming-Input DStreams and Receivers

Input DStreams是表示从源数据接收的数据流的DStream。在wordcount案例中，lines是一个Input DStream，因为它表示从netcat的9999端口接收的数据流。每个输入DStream（文件流除本节稍后讨论）与Receiver（Scala...

4年前
187
点赞
评论

Spark之SparkStreaming案例-Window Operations

Spark Streaming还提供了窗口计算，允许您在数据的滑动窗口上应用转换。下图说明了这个滑动窗口。如图所示，每当窗口滑过源DStream时，落在窗口内的源RDD被组合并进行操作以产生窗口DStream的RDD。在这种具体情况下，操作应用于最近3个时间单位的数据，并以2个...

4年前
738
点赞
评论

个人成就

文章被点赞 19

文章被阅读 90,329

加入于

2021-06-18