首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
spark进阶
订阅
更多收藏集
微信扫码分享
微信
新浪微博
QQ
11篇文章 · 0订阅
高性能Spark作业基础:你必须知道的调优原则及建议
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团点评,已经有很多同学在各种项目中尝试使用Spark。…
Spark Streaming 管理 Kafka Offsets 的方式探讨
Spark Streaming 应用从Kafka中获取信息是一种常见的场景。从Kafka中读取持续不断的数据将有很多优势,例如性能好、速度快。然而,用户必须管理Kafka Offsets保证Spark Streaming应用挂掉之后仍然能够正确地读取数据。在这一篇文章,我们将来…
Spark 中一些常见的 troubleshooting
记录一些常见的 Spark 作业里的 troubleshooting。 在 shuffle 过程中,reduce 端在拉取 map 端的数据时,每个 task 会有自己的 缓冲区用来存放每次拉取的数据,这个缓冲区默认是 48M。 如果 map 端产生的数据量非常大,并且 map…
Spark学习——性能调优(三)
数据量不是特别大的时候,都可以用这种MapPartitions系列操作,性能还是非常不错的,是有提升的。 在项目中,自己先去估算一下RDD的数据量,以及每个partition的量,还有自己分配给每个executor的内存资源。看看一下子内存容纳所有的partition数据,行不…
Spark学习——性能调优(二)
spark中,堆内存又被划分成了两块儿,一块儿是专门用来给RDD的cache、persist操作进行RDD数据缓存用的;另外一块儿,就是我们刚才所说的,用来给spark算子函数的运行使用的,存放函数中自己创建的对象。 默认情况下,给RDD cache操作的内存占比,是0.6,6…
手把手教你 Spark 性能调优
上周四接到反馈,集群部分 spark 任务执行很慢,且经常出错,参数改来改去怎么都无法优化其性能和解决频繁随机报错的问题。看了下任务的历史运行情况,平均时间 3h 左右,而且极其不稳定,偶尔还会报错。
Kafka史上最详细原理总结
Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、s…
spark streaming 将乱序消息有序存储 离线保证 exact once 语义
spark streaming 将乱序消息有序存储 离线保证 exact once 语义。
Spark内存管理模型详解
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。 一个Spark Application一般包括Driver和Executor两种JVM进程…
Spark学习——性能调优(一)
JVM调优(Java虚拟机):JVM相关的参数,通常情况下,如果你的硬件配置、基础的JVM的配置,都ok的话,JVM通常不会造成太严重的性能问题;反而更多的是,在troubleshooting中,JVM占了很重要的地位;JVM造成线上的spark作业的运行报错,甚至失败(比如O…