数据分布之单峰分布（sample database classicmodels _No.11）单峰分布是指数据的概率密

准备工作，可以去下载 classicmodels 数据库具体如下点击：classicmodels

也可以去下面我的博客资源下载 download.csdn.net/download/to…

什么是单峰分布？

单峰分布（Unimodal Distribution） 是指数据的概率密度在某一个特定点（通常称为“峰值”）达到最大值，并且从该点开始，两侧的概率密度逐渐下降。换句话说，单峰分布只有一个主要的峰（或最高点），并且在这个峰的两侧，数据的分布逐渐变得稀疏。

单峰分布的特点：

单个峰值：数据在某一个点附近集中，形成一个峰。峰值通常代表数据的中心趋势（例如，均值或中位数）。
对称性（可选）：许多单峰分布（如正态分布）是对称的，意味着数据在峰值的两侧分布相似。
单一分布：与多峰分布（如双峰分布）不同，单峰分布只有一个主要的峰值。
渐进下降：数据的频率或概率密度在峰值两侧逐渐下降，表示数据的分布逐渐变得稀疏。

常见的单峰分布类型：

正态分布（Normal Distribution） ：正态分布是最著名的单峰分布。它的概率密度函数呈钟形曲线，且关于均值对称。正态分布在自然界和社会现象中非常常见。
- 例子：人的身高、考试成绩等。
指数分布（Exponential Distribution） ：虽然是单峰的，但它并不是对称的。指数分布的峰位于左端，随着数据增大，概率密度急剧下降，通常用于建模等待时间等。
- 例子：设备故障时间、顾客到达时间等。
伽马分布（Gamma Distribution） ：也是单峰分布，但不像正态分布那样对称，通常用于描述事件的发生间隔时间。

可视化：单峰分布

在图表上，单峰分布通常会呈现一个“山峰”形状，数据集中在中间区域，边缘处的频率或密度较低。以下是一些常见单峰分布的图示：

正态分布：钟形曲线
伽马分布：右偏，数据集中在较低值

举例：

身高：一个国家的成年男性身高通常遵循正态分布，数据在中间的某个身高值（例如 170 cm）附近集中，向两侧逐渐减少，形成单峰分布。
考试成绩：大多数学生的成绩都接近平均分，极少有非常低或非常高的分数，形成单峰的分布。

总结：

单峰分布描述了数据在一个峰值附近的集中趋势，适用于许多自然现象和社会现象。如果数据分布有多个峰（例如，两个明显的高点），则称为 多峰分布。

**sql 实验 **

例如，假设我们希望按价格范围 [10, 200] 生成均匀分布的概率密度函数：

在均匀分布中，概率密度为：

f(x)=1/(200-10)

SELECT
    FLOOR(priceEach / 10) * 10 AS price_range_start,
    FLOOR(priceEach / 10) * 10 + 10 AS price_range_end,
    COUNT(*) * (1 / 190) AS theoretical_probability
FROM orderdetails
WHERE priceEach BETWEEN 10 AND 200
GROUP BY price_range_start,price_range_end
ORDER BY price_range_start,price_range_end

执行以后效果

验证

针对正态性的峰度和偏度检验

我这里找到了一个检验的网站数据分布

Skewness and Kurtosis Test

> agostino
	D'Agostino skewness test
data:  x
skew = 0.052711, z = 0.114076, p-value = 0.9092
alternative hypothesis: data have a skewness
> anscombe
	Anscombe-Glynn kurtosis test
data:  x
kurt = 1.5353, z = -2.4701, p-value = 0.01351
alternative hypothesis: kurtosis is not equal to 3
> jarque
	Jarque-Bera Normality Test
data:  x
JB = 1.6174, p-value = 0.4454
alternative hypothesis: greater
> geary
[1] 0.8803571

这些测试是用于检查数据是否符合正态分布，特别是检验数据的偏度（Skewness）和峰度（Kurtosis）特征。这些测试的结果可以帮助我们了解数据的对称性、尖锐度以及是否符合正态分布。以下是每个测试的解释：

1. D'Agostino Skewness Test（偏度检验）

skew = 0.052711：这是偏度值。偏度描述数据的对称性，0表示完全对称，正值表示数据偏右（右尾重），负值表示数据偏左（左尾重）。在这个例子中，偏度为 0.0527，接近 0，表明数据接近对称。
z = 0.114076：这是检验统计量，通常用来衡量偏度值与理论偏度（0，正态分布的偏度）之间的偏差。
p-value = 0.9092：这是 p 值，表示偏度值与正态分布的偏度（0）之间差异的显著性。p 值越大，说明数据的偏度越接近 0，数据越接近对称。这里 p 值为 0.9092，大于常用的显著性水平（如 0.05），意味着我们无法拒绝数据偏度为 0 的假设，数据是对称的。

结论：数据的偏度接近 0，且 p 值很高，表明数据是对称的，没有显著的偏斜。

2. Anscombe-Glynn Kurtosis Test（峰度检验）

kurt = 1.5353：这是数据的峰度值。峰度描述数据分布的尖锐程度，正态分布的峰度为 3。如果峰度值大于 3，表示数据的分布较尖，称为“尖峰”；如果小于 3，表示数据的分布较平缓，称为“平峰”。这里的峰度为 1.5353，表明数据的分布比正态分布更平缓。
z = -2.4701：这是检验统计量，用于衡量数据的实际峰度与理论正态分布的峰度之间的差异。
p-value = 0.01351：p 值表示数据的峰度与正态分布峰度（3）之间差异的显著性。由于 p 值小于 0.05，表明数据的峰度显著不同于 3，即数据的分布比正态分布更平缓。

结论：数据的峰度显著低于 3，表明数据的分布比正态分布更平缓。

3. Jarque-Bera Normality Test（Jarque-Bera 正态性检验）

JB = 1.6174：这是 Jarque-Bera 统计量，结合了偏度和峰度的信息，检验数据是否符合正态分布。该统计量的值越大，数据偏离正态分布的可能性越大。
p-value = 0.4454：这是 p 值，表示数据是否符合正态分布的显著性检验。p 值大于 0.05，说明我们无法拒绝数据符合正态分布的假设。

结论：p 值为 0.4454，表明数据没有显著的偏离正态分布，因此我们不能拒绝数据符合正态分布的假设。

4. Geary's Test（Geary 检验）

Geary's C = 0.8803571：这是 Geary 检验的统计量，通常用于检验数据的空间自相关性。在正态分布的假设下，Geary 的 C 值应该接近 1。较低的值表明数据之间存在较强的自相关性，而接近 1 的值表示数据较为独立。

结论：Geary 检验的 C 值接近 1，表明数据的空间自相关性较低，可以认为数据之间相对独立。

总结：

偏度检验（D'Agostino Skewness Test） ：数据对称，没有显著的偏斜。
峰度检验（Anscombe-Glynn Kurtosis Test） ：数据的峰度低于 3，表明数据的分布比正态分布更平缓。
Jarque-Bera 正态性检验：p 值较高（0.4454），无法拒绝数据符合正态分布的假设。
Geary 检验：自相关性较低，数据较为独立。

总体而言，尽管数据的峰度略低于正态分布的值，但数据的偏度和 Jarque-Bera 正态性检验表明数据接近正态分布。