数据分布之指数分布(sample database classicmodels _No.10)
准备工作,可以去下载 classicmodels 数据库具体如下 点击:classicmodels
也可以去 下面我的博客资源下载 download.csdn.net/download/to…
@TOC
什么是指数分布?
数据分布类型分析 指数分布(Exponential Distribution): 如果经过分组统计后,组的计数逐渐减少,尤其在初始的几个组中频率较高,然后逐步下降,则这可能符合指数分布的特点。 指数分布通常用于描述事件之间的时间间隔,如付款时间的间隔。它具有无记忆性,且通常是右偏的,这意味着较小的间隔频率较高,间隔时间越长的频次越低。
指数分布代码
WITH PaymentIntervals AS (
SELECT
customerNumber,
DATEDIFF(paymentDate, LAG(paymentDate) OVER (PARTITION BY customerNumber ORDER BY paymentDate)) AS interval_days
FROM payments
WHERE customerNumber IS NOT NULL
),
RangeStats AS (
-- 计算最小值、最大值和区间宽度
SELECT
MIN(interval_days) AS min_interval,
MAX(interval_days) AS max_interval,
(MAX(interval_days) - MIN(interval_days)) / 20 AS interval_width
FROM PaymentIntervals
WHERE interval_days IS NOT NULL
)
-- 分组统计不同的时间间隔区间
SELECT
FLOOR((interval_days - (SELECT min_interval FROM RangeStats)) / (SELECT interval_width FROM RangeStats)) AS group_index,
COUNT(*) AS count
FROM PaymentIntervals, RangeStats
WHERE interval_days IS NOT NULL
GROUP BY group_index
ORDER BY group_index;
SQL 查询说明
CTE PaymentIntervals:
计算每个客户两次付款之间的时间间隔(interval_days)。 使用LAG函数计算相邻两次付款的时间差,按客户编号和付款日期排序。 CTE RangeStats:
计算时间间隔的最小值(min_interval)、最大值(max_interval),以及20个区间的宽度(interval_width)。 区间宽度计算为 (MAX(interval_days) - MIN(interval_days)) / 20。 主查询:
使用计算得到的区间宽度,将时间间隔分为20个组。 使用 FLOOR((interval_days - min_interval) / interval_width) 来确定每个时间间隔属于哪一个组。 对每个组统计时间间隔出现的次数。
截图
判断和结论
数据特征分析
集中性: 数据的高频部分出现在index为1、2,计数分别为21和21。 数据的频次在最初几个组中较高,然后逐渐减少。
下降趋势: 从index为3之后,计数开始逐渐减少,但减少的方式并不十分规则,而是有起伏。 在后半部分(index为13到20),计数值比较小,大部分为5以下,且逐步趋近于1。
整体形态: 高峰出现在前面几个组,然后频次逐渐下降。 没有明显的对称性,即没有明显的从高峰向两侧对称递减的趋势。 指数分布与正态分布的特点
指数分布: 指数分布是右偏的,通常在开始部分具有较高的频率,然后逐渐快速下降。 特征是单调递减的频次分布,事件发生的时间间隔越短,频率越高,随着间隔时间增大,频率显著下降。
正态分布: 正态分布是钟形的,数据集中在均值附近,并且两侧对称递减。 特征是具有明显的峰值,峰值两侧逐渐下降,呈现出较好的对称性。
判断
是否符合指数分布: 从图表看数据在最初几个index(0到4)中频次较高,然后逐渐减少,这与指数分布的特点较为接近。 从index 之后的计数下降趋势不十分规律,但整体来看,频次有向下递减的趋势,因此可以认为与指数分布较为接近。
是否符合正态分布: 您的数据并没有呈现出对称的钟形曲线,频次高峰在初期,并没有出现均匀的对称下降趋势。 因此,数据不符合正态分布。
结论
根据您提供的分组结果,这组数据更符合指数分布的特点,因为:
数据在初期有较高的频率,然后逐步下降。 尽管下降的幅度有一些起伏,但整体上符合指数分布的单调递减特征。 这种分布通常用于描述事件之间的时间间隔,例如客户付款时间间隔的分布,短间隔时间发生的次数更多,随着时间间隔增加,频率逐渐减少。