随机变量、概率密度函数
随机变量的本质是:事件 -> 实值 的映射
离散随机变量举例:车周围行人的数量
连续随机变量举例:自车到前车的距离
离散随机变量为某值的可能性可以用一概率值表示
连续随机变量可能取值是无限的,只能借助概率密度函数 p(x),估计其在某点附近的可能性
p(x,y) 描述多个随机变量各自取到某值附近的可能性
p(x|y) 描述在给定随机变量 Y 的取值的前提下,随机变量 X 取到某值的可能性
贝叶斯公式
p(x,y)=p(x)p(y∣x)=p(y)p(x∣y)
p(x∣y)=p(y)p(x)p(y∣x)
先验概率是指在获得观测之前,根据经验对随机变量概率分布的估计;后验概率指得到观测后,修正或推断出的概率分布估计
有了先验概率密度函数 p(x) 和观测模型 p(y|x),就可以推断出后验概率密度函数 p(x|y)
p(y)=p(y)∫p(x∣y)dx=∫p(y)p(x∣y)dx=∫p(x,y)dx=∫p(x)p(y∣x)dx
p(x∣y)=p(y)p(x)p(y∣x)=∫p(x)p(y∣x)dxp(x)p(y∣x)
期望算子 E[·]
E(f(x))=∫f(x)p(x)dx,f(x) 是随机变量 X 构成的函数
样本、无偏估计
根据随机变量 X 的概率密度函数 p(x) 进行采样,得到 N 个样本,由样本估计的随机变量的均值和(协)方差称为样本均值和样本(协)方差
估计量本身就是一个随机变量,也服从一定的概率分布。估计量的均值等于估计对象的真值,估计误差的均值为零,因此,样本均值和样本方差是无偏估计
统计独立性和相关性
对于随机变量 X,Y,若 p(x,y)=p(x)p(y) ,则两个随机变量是统计独立的;若 E[xyT]=E[x]E[y]T,则两个随机变量是不相关的
独立一定不相关,不相关不一定独立
若两个随机变量的概率密度函数为高斯概率密度函数,不相关能推出独立
高斯分布
若随机变量 X 服从高斯分布,X ~ N(u,∑),N 维高斯分布的概率密度函数为
p(x)=η⋅exp(−21(x−u)TΣ−1(x−u))
归一化积
η∏k=1Kexp(−21(x−uk)TΣk−1(x−uk))=exp(−21(x−u)TΣ−1(x−u))
其中 η 是与 x 无关的归一化常数,Σ−1=Σk=1KΣk−1,Σ−1u=Σk=1KΣk−1uk
高斯推断
(x,y) 服从多元高斯分布,p(x,y)=N((uxuy),(ΣxxΣxyΣyxΣyy))
可以证明,p(x∣y)=N(ux+ΣxyΣyy−1(y−uy),Σxx−ΣxyΣyy−1Σyx)
p(y)=N(uy,Σyy)
含义:已知状态的先验分布 p(x) 和观测分布 p(y) 都是高斯分布,可以基于观测去调整估计值得到 p(x|y),由上面公式可知 p(x|y) 相较于 p(x) 协方差矩阵变小,在某种程度上使得不确定性减少了
线性变换
对于高斯分布 X ~ N(ux,Σxx),对其进行相同维度的线性变换 y = g(x) = Gx + b,可得 uy=Gux+b,Σyy=GΣxxGT
非线性变换
对于高斯分布 X ~ N(ux,Σxx),对其进行非线性变换/映射/函数,得到 y = g(x) + w, w ~ N(0, R),一般来说,随机变量 Y 不服从高斯分布,只有当 x 确定时,y 服从高斯分布,因其只受高斯噪声 w 的干扰,即 p(y|x) = N(g(x), R)
对于非线性变换可以利用泰勒公式将其线性化,从而符合高斯分布