首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
宝哥大数据
掘友等级
CTO
|
闫成数字科技
大数据, 机器学习 Flink, Spark, Hbase, Kafka, ES......
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
5
文章 5
沸点 0
赞
5
返回
|
搜索文章
最新
热门
Spark之SparkStreaming案例-UpdateStateByKey
updateStateByKey操作允许您在使用新的信息持续更新时保持任意状态。 要使用这个,你将不得不做两个步骤。 定义状态 - 状态可以是任意数据类型。 定义状态更新功能 - 使用函数指定如何使用上一个状态更新状态,并从输入流中指定新值。 在每个批处理中,Spark将对所有现...
Spark之SparkStreaming案例-transform
transform操作允许将任意RDD到RDD函数应用于DStream。 它可用于应用任何未在DStream API中公开的RDD操作。 例如,将数据流中的每个批处理与其他数据集相结合的功能不会直接暴露在DStream API中。 但是,您可以轻松地使用transform来执行此...
Spark之SparkStreaming案例-kafka
package com.chb.spark.import java.io.import java.util.import java.util.import java.util.import java.util.import java.util.import kafka.seria...
Spark之配置HA
一、修改spark-env.1.#配置HA, 主要配置spark.deploy.recoveryMode指定zookeeper,及zookeeper.export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEE...
Spark之SparkStreaming案例
Spark Streaming是Spark 核心API的扩展,可实现实时数据流的可扩展,高吞吐量,容错流处理。 数据可以从诸如Kafka,Flume,Kinesis或TCP套接字的许多来源中获取,并且可以使用由高级功能(如map,reduce,join和window)表达的复...
Spark之任务流程和角色
Application 基于Spark的应用程序,包含了driver程序和 集群上的executorDriver Program 运⾏行main函数并且新建SparkContext的 程序Cluster Manager 在集群上获取资源的外部服务(例如 standalone,Me...
Spark之缓存策略
package com.chb.import org.apache.spark.import org.apache.spark.api.java.import org.apache.spark.api.java.import org.apache.spark.repl.Spark...
spark的排错和调优
The version of scala library found in the build path of TestSpark (2.10.5) is prior to the one provided by scala IDE (2.11.7). Setting a Sca...
Spark之WordCount
package com.chb.import org.apache.spark.import org.apache.spark.import org.apache.spark.storage.val conf = new SparkConf().setAppName("wordc...
Speak之RDD介绍
参考: http://www.aboutyun.com/forum.一、RDD 是什么(Resilient Distributed Dataset.4、可选: Key-Value型的RDD是根据哈希来分区的, 类似mapreduce当中的Partitioner中, 控制key分到...
下一页
个人成就
文章被点赞
19
文章被阅读
90,020
掘力值
962
关注了
0
关注者
15
收藏集
0
关注标签
3
加入于
2021-06-18