数据分布之单峰分布(sample database classicmodels _No.11)

349 阅读6分钟

准备工作,可以去下载 classicmodels 数据库具体如下 点击:classicmodels

也可以去 下面我的博客资源下载 download.csdn.net/download/to…

什么是单峰分布?

单峰分布(Unimodal Distribution) 是指数据的概率密度在某一个特定点(通常称为“峰值”)达到最大值,并且从该点开始,两侧的概率密度逐渐下降。换句话说,单峰分布只有一个主要的峰(或最高点),并且在这个峰的两侧,数据的分布逐渐变得稀疏。

单峰分布的特点:

  1. 单个峰值:数据在某一个点附近集中,形成一个峰。峰值通常代表数据的中心趋势(例如,均值或中位数)。
  2. 对称性(可选):许多单峰分布(如正态分布)是对称的,意味着数据在峰值的两侧分布相似。
  3. 单一分布:与多峰分布(如双峰分布)不同,单峰分布只有一个主要的峰值。
  4. 渐进下降:数据的频率或概率密度在峰值两侧逐渐下降,表示数据的分布逐渐变得稀疏。

常见的单峰分布类型:

  1. 正态分布(Normal Distribution) :正态分布是最著名的单峰分布。它的概率密度函数呈钟形曲线,且关于均值对称。正态分布在自然界和社会现象中非常常见。

    • 例子:人的身高、考试成绩等。
  2. 指数分布(Exponential Distribution) :虽然是单峰的,但它并不是对称的。指数分布的峰位于左端,随着数据增大,概率密度急剧下降,通常用于建模等待时间等。

    • 例子:设备故障时间、顾客到达时间等。
  3. 伽马分布(Gamma Distribution) :也是单峰分布,但不像正态分布那样对称,通常用于描述事件的发生间隔时间。

可视化:单峰分布

在图表上,单峰分布通常会呈现一个“山峰”形状,数据集中在中间区域,边缘处的频率或密度较低。以下是一些常见单峰分布的图示:

  • 正态分布:钟形曲线
  • 伽马分布:右偏,数据集中在较低值

举例:

  • 身高:一个国家的成年男性身高通常遵循正态分布,数据在中间的某个身高值(例如 170 cm)附近集中,向两侧逐渐减少,形成单峰分布。
  • 考试成绩:大多数学生的成绩都接近平均分,极少有非常低或非常高的分数,形成单峰的分布。

总结:

单峰分布描述了数据在一个峰值附近的集中趋势,适用于许多自然现象和社会现象。如果数据分布有多个峰(例如,两个明显的高点),则称为 多峰分布

**sql 实验 **

例如,假设我们希望按价格范围 [10, 200] 生成均匀分布的概率密度函数:

在均匀分布中,概率密度为:

f(x)=1/(200-10)

SELECT
    FLOOR(priceEach / 10) * 10 AS price_range_start,
    FLOOR(priceEach / 10) * 10 + 10 AS price_range_end,
    COUNT(*) * (1 / 190) AS theoretical_probability
FROM orderdetails
WHERE priceEach BETWEEN 10 AND 200
GROUP BY price_range_start,price_range_end
ORDER BY price_range_start,price_range_end

执行以后效果

image.png

image.png

验证

针对正态性的峰度和偏度检验

我这里找到了一个检验的网站 数据分布

Skewness and Kurtosis Test

> agostino
	D'Agostino skewness test
data:  x
skew = 0.052711, z = 0.114076, p-value = 0.9092
alternative hypothesis: data have a skewness
> anscombe
	Anscombe-Glynn kurtosis test
data:  x
kurt = 1.5353, z = -2.4701, p-value = 0.01351
alternative hypothesis: kurtosis is not equal to 3
> jarque
	Jarque-Bera Normality Test
data:  x
JB = 1.6174, p-value = 0.4454
alternative hypothesis: greater
> geary
[1] 0.8803571

这些测试是用于检查数据是否符合正态分布,特别是检验数据的偏度(Skewness)和峰度(Kurtosis)特征。这些测试的结果可以帮助我们了解数据的对称性、尖锐度以及是否符合正态分布。以下是每个测试的解释:

1. D'Agostino Skewness Test(偏度检验)

  • skew = 0.052711:这是偏度值。偏度描述数据的对称性,0表示完全对称,正值表示数据偏右(右尾重),负值表示数据偏左(左尾重)。在这个例子中,偏度为 0.0527,接近 0,表明数据接近对称。
  • z = 0.114076:这是检验统计量,通常用来衡量偏度值与理论偏度(0,正态分布的偏度)之间的偏差。
  • p-value = 0.9092:这是 p 值,表示偏度值与正态分布的偏度(0)之间差异的显著性。p 值越大,说明数据的偏度越接近 0,数据越接近对称。这里 p 值为 0.9092,大于常用的显著性水平(如 0.05),意味着我们无法拒绝数据偏度为 0 的假设,数据是对称的。

结论:数据的偏度接近 0,且 p 值很高,表明数据是对称的,没有显著的偏斜。

2. Anscombe-Glynn Kurtosis Test(峰度检验)

  • kurt = 1.5353:这是数据的峰度值。峰度描述数据分布的尖锐程度,正态分布的峰度为 3。如果峰度值大于 3,表示数据的分布较尖,称为“尖峰”;如果小于 3,表示数据的分布较平缓,称为“平峰”。这里的峰度为 1.5353,表明数据的分布比正态分布更平缓。
  • z = -2.4701:这是检验统计量,用于衡量数据的实际峰度与理论正态分布的峰度之间的差异。
  • p-value = 0.01351:p 值表示数据的峰度与正态分布峰度(3)之间差异的显著性。由于 p 值小于 0.05,表明数据的峰度显著不同于 3,即数据的分布比正态分布更平缓。

结论:数据的峰度显著低于 3,表明数据的分布比正态分布更平缓。

3. Jarque-Bera Normality Test(Jarque-Bera 正态性检验)

  • JB = 1.6174:这是 Jarque-Bera 统计量,结合了偏度和峰度的信息,检验数据是否符合正态分布。该统计量的值越大,数据偏离正态分布的可能性越大。
  • p-value = 0.4454:这是 p 值,表示数据是否符合正态分布的显著性检验。p 值大于 0.05,说明我们无法拒绝数据符合正态分布的假设。

结论:p 值为 0.4454,表明数据没有显著的偏离正态分布,因此我们不能拒绝数据符合正态分布的假设。

4. Geary's Test(Geary 检验)

  • Geary's C = 0.8803571:这是 Geary 检验的统计量,通常用于检验数据的空间自相关性。在正态分布的假设下,Geary 的 C 值应该接近 1。较低的值表明数据之间存在较强的自相关性,而接近 1 的值表示数据较为独立。

结论:Geary 检验的 C 值接近 1,表明数据的空间自相关性较低,可以认为数据之间相对独立。

总结:

  • 偏度检验(D'Agostino Skewness Test) :数据对称,没有显著的偏斜。
  • 峰度检验(Anscombe-Glynn Kurtosis Test) :数据的峰度低于 3,表明数据的分布比正态分布更平缓。
  • Jarque-Bera 正态性检验:p 值较高(0.4454),无法拒绝数据符合正态分布的假设。
  • Geary 检验:自相关性较低,数据较为独立。

总体而言,尽管数据的峰度略低于正态分布的值,但数据的偏度和 Jarque-Bera 正态性检验表明数据接近正态分布。