首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
spark
订阅
用户6597590985051
更多收藏集
微信扫码分享
微信
新浪微博
QQ
33篇文章 · 0订阅
【Spark】(一)初识 Spark
官网地址:http://spark.apache.org/ Apache Spark™是用于大规模数据处理的统一分析引擎。spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展...
【Spark】(二)Spark2.3.4 集群分布式安装
从官网下载:http://spark.apache.org/downloads.3、hadoop2.6.1、上传并解压缩 spark-2.3.4-bin-hadoop2.6.[root@zj1 opt]# mv spark-2.3.4-bin-hadoop2.(2)复制spark...
【Spark】(三)Spark 架构原理和RDD使用详解
一、Spark 架构原理1.1 Spark架构核心组件1.二、RDD概述2.1 什么是RDD?2.2 RDD具体包含了一些什么东西?2.3 RDD的五大特性2.4 RDD可以从哪来2.三、RDD的创建方式3.1 通过读取文件生成的3.2 通过并行化的方式创建RDD3.四、RDD编...
【Spark】(四)Spark 广播变量和累加器
一、概述二、广播变量broadcast variable2.1 为什么要将变量定义成广播变量?2.2 广播变量图解2.3 如何定义一个广播变量?2.4 如何还原一个广播变量?2.5 定义广播变量需要的注意点?2.三、累加器3.1 为什么要将一个变量定义为一个累加器?3.2 图解累...
【Spark】(五)Spark Transformation(转换算子) 和 Action(执行算子)
二、map、flatMap、mapParations、mapPartitionsWithIndex2.1 map2.2 flatMap3.3 mapPartitions3.三、reduce、reduceByKey3.1 reduce3.四、union,join和groupByKe...
【Spark】(六)Spark 运行流程
一、Spark中的基本概念二、Spark的运行流程2.三、Spark在不同集群中的运行架构3.1 Spark on Standalone运行过程3.2 Spark on YARN运行过程3.2.1 YARN框架流程3.2.2 YARN-Client3.2.3 YARN-Clust...
【Spark】(七)Spark partition 理解 / coalesce 与 repartition的区别
如果读取的是hdfs,那么有多少个block,就有多少个partition 举例来说:sparksql 要读表T, 如果表T有1w个小文件,那么就有1w个partition 这时候读取效率会较低。假设设置资源为 --executor-memory 2g --executor-co...
【Spark】(八)Spark SQL 应用解析
一、Spark SQL的进化之路二、认识Spark SQL2.1 什么是Spark SQL?2.2 Spark SQL的作用2.3 运行原理2.4 特点2.三、Spark SQL API3.1 SparkSession3.2 DataSet ( Spark1. 3.四、Spark...
【Spark】(九)Spark GraphX 图计算解析
图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种网状数据结构。Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。那么什么是图,都计算些什么?众所周知社交网络中...
【Spark】Spark 优化操作之自定义 distinct
因为默认的distinct算子操作效率太低,自己改写一下。iter.foldLeft(Set[String]())((CurS, item) => CurS + item._1).val rdd2 = rdd1.map(x => (x._1 + SPLIT + x._2 + SP...