首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
Spark
订阅
名字好难想
更多收藏集
微信扫码分享
微信
新浪微博
QQ
7篇文章 · 0订阅
从2小时到3分钟:Spark SQL多维分析性能优化实战
背景 前一阵数分小姐姐跑路了把任务都交接给数仓了,最近发现其中的一个 hive 报表任务每天运行 1.5~2h 同时占用大量资源,晒下问题 sql: 关键信息: 包含 6 个维度的 cube,也就是最
Spark项目打包优化实践
问题描述 在使用Scala/Java进行Spark项目开发过程中,常涉及项目构建和打包上传,因项目依赖Spark基础相关类包一般较大,打包后若涉及远程开发调试,每次打包都消耗多很多时间,因此需对此过程
spark性能优化
观察Driver的log:“BlockManagerInfo: Added rdd_6_0 in memory on 192.168.0.101:12907 (size: 16.6 KB, free: 1443.6 MB)”的日志信息。这就显示了每个partition占用了多少…
SparkSQL的入门实践教程
摘要:Spark SQL是用于处理结构化数据的模块。与Spark RDD不同的是,Spark SQL提供数据的结构信息(源数据)和性能更好,可以通过SQL和DataSet API与Spark SQL进
Spark数据倾斜案例测试及调优准则深入剖析-Spark商业调优实战
本套系列博客从真实商业环境抽取案例进行总结和分享,并给出Spark商业应用实战指导,请持续关注本套博客。 本文重点介绍最具技术含量的数据倾斜处理算法,如下方法仅供参考。 方案适用场景:在对RDD使用join类操作,或者是在Spark SQL中使用join语句时,而且join操作…
Spark 常规性能调优 之 最优资源配置
常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策
Spark学习——性能调优(一)
JVM调优(Java虚拟机):JVM相关的参数,通常情况下,如果你的硬件配置、基础的JVM的配置,都ok的话,JVM通常不会造成太严重的性能问题;反而更多的是,在troubleshooting中,JVM占了很重要的地位;JVM造成线上的spark作业的运行报错,甚至失败(比如O…