广播表大小
spark.sql.autoBroadcastJoinThreshold
配置被广播表的大小,默认为 10M
反压机制相关配置
spark.streaming.backpressure.enabled 是否启用反压机制。默认为 false
spark.streaming.backpressure.initialRate 初始最大接收速率,只适用于 Receiver Stream(文件),不适用于 Direct Stream(Kafka)。默认没有设置
spark.streaming.backpressure.rateEstimator 速率控制器,Spark 默认只支持这个控制器。默认为 pid
spark.streaming.backpressure.pid.minRate 最小速率,只能为正数。默认为 100
spark.streaming.receiver.maxRate 最大输入速率,只针对于 Receiver Stream
spark.streaming.kafka.maxRatePerPartition 最大输入速率,针对于 Kafka 输入源设置
忽略损坏文件
spark.sql.files.ignoreCorruptFiles 当读取文件时,设置该项为 true,则会忽略错误的文件,已读取的内容仍然发挥
示例:
spark.sql("set spark.sql.files.ignoreCorruptFiles=true")