Spark 调优之SparkUI详解

3,330 阅读1分钟
  • Spark UI Environment

可以通过Spark-UI 的 Environment查看当前的参数设置情况(可以查到默认参数大小,也可以校验设置的参数是否生效了,没有的说明默认不限制)

image.png

  • Spark UI SQL

    可以看spark ui上的sql,看看当前sql执行到里哪个阶段

image.png

点击上图的蓝色字体链接precessCmd at CliDriver.java:386 可以看具体的执行信息。一般执行完的阶段有metrics信息打出来,还么打的就是没有执行的

可以将鼠标移动到具体的节点查看物理执行计划,分析执行的具体是哪段sql,虽然有些乱,但是可以里面的内容还是我们写的sql

image.png

  • Spark UI Stages

    每两次需要shuffle 操作之间是一个stage,如join,group by

    在这里可以看到spark 任务最重转换成rdd的stage信息,已完成的stage,正在执行的stage,跳过的stage

    点击蓝色字体可以跳转查看具体的Stage的DAG关系图

image.png

  • Sparl UI Jobs

    这里是任务执行Job的信息,一个算子会出发一个job,比如count或者insert into等

    [图片上传失败...(image-59e2f5-1539069776961)]

    和stages,sql一样,这里有已完成的job,正在执行的job,点击蓝色字体可以跳转查看stage之间的DAG关系图

image.png

  • Spark UI Executors

    这里是具体的Spark任务分配的每一个task的执行情况,点击可以进入yarn平台查看具体的日志信息,一般的错误日志都可以在driver的日志中查看,不过有些需要看具体的执行机,如内存溢出等。

    关于Executors的点比较多,具体可参考 www.jianshu.com/p/88e2f5dc1…