如何正确理解箱线图(box plot)的含义

433 阅读1分钟

箱子的中间一条线,是数据的中位数,代表了样本数据的平均水平

箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。因此,箱子的宽度在一定程度上反映了数据的波动程度。在箱子的上方和下方,又各有一条线。有时候代表着最大最小值,有时候会有一些点“冒出去”。请千万不要纠结,不要纠结,不要纠结(重要的事情说三遍),如果有点冒出去,理解成 “异常值” 就好。

箱线图和正态分布的关系

点要说明的,不是所有数据都适合画箱线图。第二点要说明的,更加重要的,那就是箱线图应该怎么用。答案是,配合着定性变量画分组箱线图,作比较

总结

  • 箱线图是针对连续型变量的,解读时候重点关注平均水平、波动程度和异常值。
  • 当箱子被压得很扁,或者有很多异常的时候,试着做对数变换。
  • 当只有一个连续型变量时,并不适合画箱线图,直方图是更常见的选择。
  • 箱线图最有效的使用途径是作比较,配合一个或者多个定性数据,画分组箱线图。