概率与统计-评估和优化AI模型的表现
概率
是一个0到1之间的实数,对随机事件发生的可能性的度量
深度学习中的概率
图片识别
金融量化
期望值
期望值是指在一个离散型随机变化试验中每次可能结果的概率乘于其结果的总和。期望值也可以理解为随机试验在同样机会下重复多次的结果计算出的平均值
统计
平均值:描述平均水平(有可能被异常数据影响)
中位数,中间值:排序后位于中间的数值(用于对比异常数据)
标准差:描述数据离散程度(越小表示数据越接近)
平均值和标准差在机器学习中的应用
评估模型表现
判断模型的准确率
优化输入数据
区域人口密度对房价的影响程度可能没有房屋面积影响大,但是由于数据存在数量级的差别,导致模型对两者计算的权重不一样,可能需要多次调优,甚至都不能发现问题
需要使用输入数据归一化
使用每个数据的值减去平均值,在除以标准差,把数据都归一到一个数量级里,减少对模型的影响
分布
均值分布
正态分布(高斯分布)
正态分布表的使用
z =(测量的数值-平均值)/标准差
举个例子
要查Z=1.45的标准正态分布表
首先 在Z下面对应的数找到1.4
然后 在Z右边的行中找到0.05
这两个数所对应的值为 0.4625 即为所查的概率
再举个例子
一个互联网公司,程序员的年龄符合高斯分布。
平均年龄为30岁,标准差是10
然后这时候来了一个员工在18-30岁之间的概率
18岁员工的z等于(18-30)/10 = -1.2
30岁员工的z等于(30-35)/10 = 0
对照表找到1.20的值0.3849,0的值0.0000
将他们相减就是18-30岁员工之间的概率即38.49%
附一个知乎的详细说明:
zhuanlan.zhihu.com/p/128809461…
我就是在这里然后复习现学现卖的
正态分布在机器学习人工智能的应用
我们在预测或者是图像识别的时候,我们更加倾向于给一个概率,比如房价。
涨5000是20%,涨1000是80%
还有一个应用是:模型参数初始化
我们在模型初始化的时候不能把值设置为0,我们可以根据正态分布,将不同的概率的数据设为初始值。
代码题
1)
import numpy as np
#均匀分布
#np.random.rand(10000)
#高斯分布
#np.random.randn(10000)
tmp = np.random.randn(10000)
print(np.sum(temp>0))
print(np.sum(temp<0))
print(np.sum(temp>0.5))
print(np.sum(temp>1))
print(np.sum(temp>2))
2)
dots = np.random.rand(10000,2)#生成一个坐标点(0-1,0-1)
radii= dots[:,0]**2+dots[:,1]**2 #勾股定理求坐标点离原点的长度
print(np.sum(radii<=1))#输出离远点长度小于圆半径1的值
print(np.pi/4)#打印4分之1圆面积和答案做对比