Spark 常用配置项

238 阅读1分钟

广播表大小

spark.sql.autoBroadcastJoinThreshold

配置被广播表的大小,默认为 10M

反压机制相关配置

spark.streaming.backpressure.enabled 是否启用反压机制。默认为 false

spark.streaming.backpressure.initialRate 初始最大接收速率,只适用于 Receiver Stream(文件),不适用于 Direct Stream(Kafka)。默认没有设置

spark.streaming.backpressure.rateEstimator 速率控制器,Spark 默认只支持这个控制器。默认为 pid

spark.streaming.backpressure.pid.minRate 最小速率,只能为正数。默认为 100

spark.streaming.receiver.maxRate 最大输入速率,只针对于 Receiver Stream

spark.streaming.kafka.maxRatePerPartition 最大输入速率,针对于 Kafka 输入源设置

忽略损坏文件

spark.sql.files.ignoreCorruptFiles 当读取文件时,设置该项为 true,则会忽略错误的文件,已读取的内容仍然发挥 示例:

spark.sql("set spark.sql.files.ignoreCorruptFiles=true")