spark - shenxinfeng88的收藏集 - 掘金

spark

更多收藏集

10篇文章 · 0订阅

从源代码编译构建Apach Spark3.2.4

使用官方预编译版本的Spark已经足够满足日常需求。当在特定的场景和需求下，重新编译Spark提供了更大的灵活性和控制权，适用于需要特定功能、定制化配置或对Spark进行扩展的场景。

CodeDevMaster
2年前
1.4k
3
评论

从源代码编译构建Apach Spark3.2.4

如何在IDE中通过Spark操作Hive

话说前面已经简单介绍过在windows下hadoop&hive环境搭建和基本使用，如果这次直接写Spark项目实践就有一点突兀，那么就暂且跳过，先在IDEA中安装bigData插件连接hadoop

北桥苏
2年前
669
3
2

Spark Streaming编程初级实践

Spark Streaming编程初级实践写在前面 1. 安装Flume 安装命令 2.使用Avro数据源测试Flume 题目描述 Flume配置文件执行命令执行结果如下 3. 使用netcat

WHYBIGDATA
2年前
551
点赞
评论

Spark Streaming编程初级实践

Spark调优指南

本文是关于Spark优化性能与内存使用的最佳实践，翻译整理自Tuning - Spark 3.3.2 Documentation。由于spark内存计算的特性，很多因素都会影响Spark的表现：CPU

1024点线面
3年前
5.7k
51
评论

Spark中join操作何时是窄依赖何时是宽依赖（源码解析）

Spark中join操作何时是窄依赖何时是宽依赖的源码解析，如果join操作的两个RDD有分区器，且分区数相同，则join操作是窄依赖，如果join操作的两个RDD没有分区器或分区数量不同，则是宽依赖

Jeremy__
3年前
805
点赞
评论

Spark中join操作何时是窄依赖何时是宽依赖（源码解析）

Spark框架深度理解一：开发缘由及优缺点

本文已参与「新人创作礼」活动，一起开启掘金创作之路。前言由于Spark框架大多都搭建在Hadoop系统之上，要明白Spark核心运行原理还是得对Hadoop体系有个熟悉的认知。从Hadoop1.0

fanstuck
3年前
1.7k
7
评论

Spark框架深度理解一：开发缘由及优缺点

Spark - RangePartitioner rangeBounds 生成源码分析 & 实践

本文主要探索 RangePartitioner 源码中 rangeBounds 的生成，rangeBounds 用于对 key 进行范围分区，通过源码可以学习到如何在分布式大数据下采样并获取近似均分区

BIT_666
3年前
1.4k
点赞
评论

Spark如何对源端数据做切分？

简介：典型的Spark作业读取位于OSS的Parquet外表时，源端的并发度（task/partition）如何确定？特别是在做TPCH测试时有一些疑问，如源端扫描文件的并发度是如何确定的？是否一个

阿里云云栖号
3年前
2.0k
2
评论

手绘流程图讲解spark是如何实现集群的高可用

本文主要通过流程图讲解spark是怎么针对master、worker、executor的异常情况做处理的。

华为云开发者联盟
3年前
890
3
1

5小时推开Spark的大门——03.WordCount案例

求推荐！大家好，我是一条~ 5小时推开Spark的大门，第三小时，带大家做一个大数据入门的经典案例——WordCount。话不

一条coding
4年前
6.1k
26
评论