spark - 爱Rap篮球写代码的蔡徐的收藏集 - 掘金

spark

爱Rap篮球写代码的蔡徐创作等级LV.5

更多收藏集

4篇文章 · 0订阅

《Spark The Definitive Guide》Chapter 5：基本结构化API操作

通过printSchema方法打印df的Schema。这里Schema的构造有两种方式，一是像上面一样读取数据时根据数据类型推断出Schema（schema-on-read），二是自定义Schema。具体选哪种要看你实际应用场景，如果你不知道输入数据的格式，那就采用自推断的。相…

萧洒的身影
6年前
2.7k
1
评论

Spark学习——性能调优（一）

JVM调优（Java虚拟机）：JVM相关的参数，通常情况下，如果你的硬件配置、基础的JVM的配置，都ok的话，JVM通常不会造成太严重的性能问题；反而更多的是，在troubleshooting中，JVM占了很重要的地位；JVM造成线上的spark作业的运行报错，甚至失败（比如O…

Hiway
7年前
1.4k
3
评论

Spark学习——数据倾斜

1. 什么是数据倾斜拖慢整个Job执行时间（其他已经完成的节点都在等这个还在做的节点）。 2. 解决数据倾斜需要搞定 OOM 的根本原因等：一般都因为数据倾斜（某task任务的数据量过大，GC压力大，和Kafka不同在于Kafka的内存不经过JVM，其基于Linux的Pag…

Hiway
6年前
1.7k
2
评论

是时候学习真正的 spark 技术了

spark sql 可以说是 spark 中的精华部分了，我感觉整体复杂度是 spark streaming 的 5 倍以上，现在 spark 官方主推 structed streaming， spark streaming 维护的也不积极了，我们基于 spark 来构建大数…

七牛云
7年前
4.9k
32
2

是时候学习真正的 spark 技术了