记录研究生封校生活的学习day8(第六篇)pandas实战(六)

131 阅读2分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第8天,点击查看活动详情

总计:今天是十月更文计划第八天,第十六篇

标准差

标准差是一组数据分散程度或波动程序的一种度量,也是数据不确定性或不稳定性的一种度量。

对于一组特定的数据,如果标准差较大则代表大部分数值和其平均值之间差异较大,如果标准差较小则代表这些数值较接近平均值。

应用于投资时,标准差可以作为度量回报稳定性的重要指标。标准差数值越大,代表回报远离平均值,回报不稳定所以风险高。相反,标准差数值越小,代表回报比较稳定,所以风险也比较小。

对于给定的一组数据,标准差是每个样本值与全体样本平均值的差的平方和的平均值的平方根

协方差:表述相关性

对于多组数据,可以使用协方差描述数据之间的相关性。如果两组数据 X 和 Y 的协方差cov(X,Y)的值为正值,则说明两者是正相关的,结果为负值就说明是负相关的,如果为0,则认为两组数据在统计上是“相互独立”

为了便于分析多组数据之间的相关性,可以使用协方差矩阵。协方差矩阵对角线上分别是X和Y的方差,非对角线上是协方差。协方差大于0表示 X 和 Y 若其中一个增加,另一个也会增加;小于0表示如果其中一个增加则另一个会减少;协方差为0时,两者独立,其中一个变化时不影响另一个。协方差绝对值越大,两者对彼此的影响越大,反之越小。如果 X 与 Y 是统计独立的,那么二者之间的协方差就是0,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。方差是协方差的一种特殊情况,也就是两个变量相同时的情况。

df = pd.DataFrame({'A':[3,3,3,3,3], 'B':[1,2,3,4,5],'C':[-5,-4,15,4,5], 'D':[-50,-40,15,40,50]})   #有A,B,C,D 一共4print('原始数据'.ljust(20,'='))
print(df)

print('平均值'.ljust(20,'='))
print(df.mean())

print('标准差'.ljust(20,'='))   #数据距离平均值的大小,越大表示越分散
print(df.std())

print('标准差的平方'.ljust(20,'='))
print(df.std()**2)

print('协方差'.ljust(20,'='))
print(df.cov())

输出的结果如下:

image.png