准备工作,可以去下载 classicmodels 数据库具体如下 点击:classicmodels
也可以去 下面我的博客资源下载 download.csdn.net/download/to…
什么是单峰分布?
单峰分布(Unimodal Distribution) 是指数据的概率密度在某一个特定点(通常称为“峰值”)达到最大值,并且从该点开始,两侧的概率密度逐渐下降。换句话说,单峰分布只有一个主要的峰(或最高点),并且在这个峰的两侧,数据的分布逐渐变得稀疏。
单峰分布的特点:
- 单个峰值:数据在某一个点附近集中,形成一个峰。峰值通常代表数据的中心趋势(例如,均值或中位数)。
- 对称性(可选):许多单峰分布(如正态分布)是对称的,意味着数据在峰值的两侧分布相似。
- 单一分布:与多峰分布(如双峰分布)不同,单峰分布只有一个主要的峰值。
- 渐进下降:数据的频率或概率密度在峰值两侧逐渐下降,表示数据的分布逐渐变得稀疏。
常见的单峰分布类型:
-
正态分布(Normal Distribution) :正态分布是最著名的单峰分布。它的概率密度函数呈钟形曲线,且关于均值对称。正态分布在自然界和社会现象中非常常见。
- 例子:人的身高、考试成绩等。
-
指数分布(Exponential Distribution) :虽然是单峰的,但它并不是对称的。指数分布的峰位于左端,随着数据增大,概率密度急剧下降,通常用于建模等待时间等。
- 例子:设备故障时间、顾客到达时间等。
-
伽马分布(Gamma Distribution) :也是单峰分布,但不像正态分布那样对称,通常用于描述事件的发生间隔时间。
可视化:单峰分布
在图表上,单峰分布通常会呈现一个“山峰”形状,数据集中在中间区域,边缘处的频率或密度较低。以下是一些常见单峰分布的图示:
- 正态分布:钟形曲线
- 伽马分布:右偏,数据集中在较低值
举例:
- 身高:一个国家的成年男性身高通常遵循正态分布,数据在中间的某个身高值(例如 170 cm)附近集中,向两侧逐渐减少,形成单峰分布。
- 考试成绩:大多数学生的成绩都接近平均分,极少有非常低或非常高的分数,形成单峰的分布。
总结:
单峰分布描述了数据在一个峰值附近的集中趋势,适用于许多自然现象和社会现象。如果数据分布有多个峰(例如,两个明显的高点),则称为 多峰分布。
**sql 实验 **
例如,假设我们希望按价格范围 [10, 200] 生成均匀分布的概率密度函数:
在均匀分布中,概率密度为:
f(x)=1/(200-10)
SELECT
FLOOR(priceEach / 10) * 10 AS price_range_start,
FLOOR(priceEach / 10) * 10 + 10 AS price_range_end,
COUNT(*) * (1 / 190) AS theoretical_probability
FROM orderdetails
WHERE priceEach BETWEEN 10 AND 200
GROUP BY price_range_start,price_range_end
ORDER BY price_range_start,price_range_end
执行以后效果
验证
针对正态性的峰度和偏度检验
我这里找到了一个检验的网站 数据分布
Skewness and Kurtosis Test
> agostino
D'Agostino skewness test
data: x
skew = 0.052711, z = 0.114076, p-value = 0.9092
alternative hypothesis: data have a skewness
> anscombe
Anscombe-Glynn kurtosis test
data: x
kurt = 1.5353, z = -2.4701, p-value = 0.01351
alternative hypothesis: kurtosis is not equal to 3
> jarque
Jarque-Bera Normality Test
data: x
JB = 1.6174, p-value = 0.4454
alternative hypothesis: greater
> geary
[1] 0.8803571
这些测试是用于检查数据是否符合正态分布,特别是检验数据的偏度(Skewness)和峰度(Kurtosis)特征。这些测试的结果可以帮助我们了解数据的对称性、尖锐度以及是否符合正态分布。以下是每个测试的解释:
1. D'Agostino Skewness Test(偏度检验)
- skew = 0.052711:这是偏度值。偏度描述数据的对称性,0表示完全对称,正值表示数据偏右(右尾重),负值表示数据偏左(左尾重)。在这个例子中,偏度为 0.0527,接近 0,表明数据接近对称。
- z = 0.114076:这是检验统计量,通常用来衡量偏度值与理论偏度(0,正态分布的偏度)之间的偏差。
- p-value = 0.9092:这是 p 值,表示偏度值与正态分布的偏度(0)之间差异的显著性。p 值越大,说明数据的偏度越接近 0,数据越接近对称。这里 p 值为 0.9092,大于常用的显著性水平(如 0.05),意味着我们无法拒绝数据偏度为 0 的假设,数据是对称的。
结论:数据的偏度接近 0,且 p 值很高,表明数据是对称的,没有显著的偏斜。
2. Anscombe-Glynn Kurtosis Test(峰度检验)
- kurt = 1.5353:这是数据的峰度值。峰度描述数据分布的尖锐程度,正态分布的峰度为 3。如果峰度值大于 3,表示数据的分布较尖,称为“尖峰”;如果小于 3,表示数据的分布较平缓,称为“平峰”。这里的峰度为 1.5353,表明数据的分布比正态分布更平缓。
- z = -2.4701:这是检验统计量,用于衡量数据的实际峰度与理论正态分布的峰度之间的差异。
- p-value = 0.01351:p 值表示数据的峰度与正态分布峰度(3)之间差异的显著性。由于 p 值小于 0.05,表明数据的峰度显著不同于 3,即数据的分布比正态分布更平缓。
结论:数据的峰度显著低于 3,表明数据的分布比正态分布更平缓。
3. Jarque-Bera Normality Test(Jarque-Bera 正态性检验)
- JB = 1.6174:这是 Jarque-Bera 统计量,结合了偏度和峰度的信息,检验数据是否符合正态分布。该统计量的值越大,数据偏离正态分布的可能性越大。
- p-value = 0.4454:这是 p 值,表示数据是否符合正态分布的显著性检验。p 值大于 0.05,说明我们无法拒绝数据符合正态分布的假设。
结论:p 值为 0.4454,表明数据没有显著的偏离正态分布,因此我们不能拒绝数据符合正态分布的假设。
4. Geary's Test(Geary 检验)
- Geary's C = 0.8803571:这是 Geary 检验的统计量,通常用于检验数据的空间自相关性。在正态分布的假设下,Geary 的 C 值应该接近 1。较低的值表明数据之间存在较强的自相关性,而接近 1 的值表示数据较为独立。
结论:Geary 检验的 C 值接近 1,表明数据的空间自相关性较低,可以认为数据之间相对独立。
总结:
- 偏度检验(D'Agostino Skewness Test) :数据对称,没有显著的偏斜。
- 峰度检验(Anscombe-Glynn Kurtosis Test) :数据的峰度低于 3,表明数据的分布比正态分布更平缓。
- Jarque-Bera 正态性检验:p 值较高(0.4454),无法拒绝数据符合正态分布的假设。
- Geary 检验:自相关性较低,数据较为独立。
总体而言,尽管数据的峰度略低于正态分布的值,但数据的偏度和 Jarque-Bera 正态性检验表明数据接近正态分布。