首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
宝哥大数据
掘友等级
CTO
|
闫成数字科技
大数据, 机器学习 Flink, Spark, Hbase, Kafka, ES......
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
5
文章 5
沸点 0
赞
5
返回
|
搜索文章
宝哥大数据
CTO @闫成数字科技
·
4年前
关注
Kafka--Producer&Consumer
开始,我们需要构造ProducerRecord,它必须包含想要存储的topic以及想要发送的数据,另外,也可以直接指定特殊的key或者分区。当发送ProducerRec...
0
评论
分享
宝哥大数据
CTO @闫成数字科技
·
4年前
关注
kafka--Topics and Logs
topic是被发布记录的类别或提要名称。在kafka中, topic 是多租户的,一个topic可以工多个用户订阅。 每个分区都是一个有序的、不...
0
评论
分享
宝哥大数据
CTO @闫成数字科技
·
4年前
关注
Java RMI 与Zookeeper
Java RMI 指的是远程方法调用 (Remote Method Invocation)。它是一种机制,能够让在某个 Java 虚拟机上的对象调用另一个 Java ...
0
评论
分享
宝哥大数据
CTO @闫成数字科技
·
4年前
关注
zookeeper节点创建
##一、zookeeper节点创建 ###1.###1....
0
评论
分享
宝哥大数据
CTO @闫成数字科技
·
4年前
关注
kafka 出现错误问题
1. Error while executing topic command org.apache.zookeeper.cd /uardata10/chbtmp/packa...
0
评论
分享
宝哥大数据
CTO @闫成数字科技
·
4年前
关注
Spark--分组TopN
为了获取每个分组的topN, 首先要进行分组, 再对每个分组进行排序,获取TopN。1.SparkConf conf = new SparkConf().setMaster...
0
评论
分享
宝哥大数据
CTO @闫成数字科技
·
4年前
关注
Spark--TopN
为了获取一列值的前五个最值,我们需要对该列数据进行排序, 取前五个,但是sortByKey 是按照(key,value)格式,对key进行排序,所以我们需要将数据构建成(k...
0
评论
分享
宝哥大数据
CTO @闫成数字科技
·
4年前
关注
Spark的高级排序(二次排序)
2.使用scala.math.package com.chb.sparkDemo.import java.io.import scala.math.* 使用scala.ma...
0
评论
分享
宝哥大数据
CTO @闫成数字科技
·
4年前
关注
Spark---Broadcast变量&Accumulators
通常情况下,当向Spark操作(如map,reduce)传递一个函数时,它会在一个远程集群节点上执行,它会使用函数中所有变量的副本。 这些变量被复制到所有的机器上,远程机器...
0
评论
分享
宝哥大数据
CTO @闫成数字科技
·
4年前
关注
Spark之SparkStreaming-Input DStreams and Receivers
Input DStreams是表示从源数据接收的数据流的DStream。 在wordcount案例中,lines是一个Input DStream,因为它表示从netca...
0
评论
分享
宝哥大数据
CTO @闫成数字科技
·
4年前
关注
Spark之SparkStreaming案例-Window Operations
Spark Streaming还提供了窗口计算,允许您在数据的滑动窗口上应用转换。 下图说明了这个滑动窗口。如图所示,每当窗口滑过源DStream时,落在窗口内的源RDD被...
0
评论
分享
宝哥大数据
CTO @闫成数字科技
·
4年前
关注
Spark之SparkStreaming案例-UpdateStateByKey
updateStateByKey操作允许您在使用新的信息持续更新时保持任意状态。 要使用这个,你将不得不做两个步骤。 定义状态 - 状态可以是任意数据类型。 定义状态更新功...
0
评论
分享
宝哥大数据
CTO @闫成数字科技
·
4年前
关注
Spark之SparkStreaming案例-transform
transform操作允许将任意RDD到RDD函数应用于DStream。 它可用于应用任何未在DStream API中公开的RDD操作。 例如,将数据流中的每个批处理与其他...
0
评论
分享
宝哥大数据
CTO @闫成数字科技
·
4年前
关注
Spark之SparkStreaming案例-kafka
package com.chb.spark.import java.io.import java.util.import java.util.import java.uti...
0
评论
分享
宝哥大数据
CTO @闫成数字科技
·
4年前
关注
Spark之SparkStreaming案例
Spark Streaming是Spark 核心API的扩展,可实现实时数据流的可扩展,高吞吐量,容错流处理。 数据可以从诸如Kafka,Flume,Kinesis或T...
0
评论
分享
宝哥大数据
CTO @闫成数字科技
·
4年前
关注
Spark之配置HA
一、修改spark-env.1.#配置HA, 主要配置spark.deploy.recoveryMode指定zookeeper,及zookeeper.export SPAR...
0
评论
分享
宝哥大数据
CTO @闫成数字科技
·
4年前
关注
Spark之任务流程和角色
Application 基于Spark的应用程序,包含了driver程序和 集群上的executorDriver Program 运⾏行main函数并且新建SparkCon...
0
评论
分享
宝哥大数据
CTO @闫成数字科技
·
4年前
关注
Spark之缓存策略
package com.chb.import org.apache.spark.import org.apache.spark.api.java.import org.ap...
0
评论
分享
宝哥大数据
CTO @闫成数字科技
·
4年前
关注
spark的排错和调优
The version of scala library found in the build path of TestSpark (2.10.5) is prior to...
0
评论
分享
宝哥大数据
CTO @闫成数字科技
·
4年前
关注
Spark之WordCount
package com.chb.import org.apache.spark.import org.apache.spark.import org.apache.spar...
0
评论
分享
下一页
个人成就
文章被点赞
19
文章被阅读
82,583
掘力值
948
关注了
0
关注者
15
收藏集
0
关注标签
3
加入于
2021-06-18