一文回顾多传感器后融合可能用到的概率论基础知识

280 阅读3分钟

随机变量、概率密度函数

  • 随机变量

随机变量的本质是:事件 -> 实值 的映射

离散随机变量举例:车周围行人的数量

连续随机变量举例:自车到前车的距离

  • 概率密度函数

离散随机变量为某值的可能性可以用一概率值表示

连续随机变量可能取值是无限的,只能借助概率密度函数 p(x),估计其在某点附近的可能性

  • 联合概率密度函数

p(x,y) 描述多个随机变量各自取到某值附近的可能性

  • 条件概率密度函数

p(x|y) 描述在给定随机变量 Y 的取值的前提下,随机变量 X 取到某值的可能性

贝叶斯公式

  • 贝叶斯公式

p(x,y)=p(x)p(yx)=p(y)p(xy)p(x,y) = p(x)p(y|x) = p(y)p(x|y)

p(xy)=p(x)p(yx)p(y)p(x|y) = \frac{p(x)p(y|x)}{p(y)}

  • 贝叶斯推断

先验概率是指在获得观测之前,根据经验对随机变量概率分布的估计;后验概率指得到观测后,修正或推断出的概率分布估计

有了先验概率密度函数 p(x) 和观测模型 p(y|x),就可以推断出后验概率密度函数 p(x|y)

p(y)=p(y)p(xy)dx=p(y)p(xy)dx=p(x,y)dx=p(x)p(yx)dxp(y) = p(y) \int p(x|y) dx = \int p(y)p(x|y)dx = \int p(x,y) dx = \int p(x)p(y|x) dx

p(xy)=p(x)p(yx)p(y)=p(x)p(yx)p(x)p(yx)dxp(x|y) = \frac{p(x)p(y|x)}{p(y)} = \frac{p(x)p(y|x)}{\int p(x)p(y|x) dx}

期望算子 E[·]

E(f(x))=f(x)p(x)dxE(f(x)) = \int f(x)p(x) dx f(x) 是随机变量 X 构成的函数

样本、无偏估计

根据随机变量 X 的概率密度函数 p(x) 进行采样,得到 N 个样本,由样本估计的随机变量的均值和(协)方差称为样本均值样本(协)方差

估计量本身就是一个随机变量,也服从一定的概率分布。估计量的均值等于估计对象的真值,估计误差的均值为零,因此,样本均值和样本方差是无偏估计

统计独立性和相关性

对于随机变量 X,Y,若 p(x,y)=p(x)p(y)p(x,y) = p(x)p(y) ,则两个随机变量是统计独立的;若 E[xyT]=E[x]E[y]TE[xy^T] = E[x]E[y]^T,则两个随机变量是不相关

独立一定不相关,不相关不一定独立

若两个随机变量的概率密度函数为高斯概率密度函数,不相关能推出独立

高斯分布

若随机变量 X 服从高斯分布,X ~ N(u,∑)N 维高斯分布的概率密度函数为

p(x)=ηexp(12(xu)TΣ1(xu))p(x) = \eta·exp(-\frac{1}{2} (x - u)^T \Sigma^{-1} (x - u))

归一化积

ηk=1Kexp(12(xuk)TΣk1(xuk))=exp(12(xu)TΣ1(xu))\eta \prod_{k=1}^{K} exp(-\frac{1}{2} (x - u_k)^T \Sigma_{k}^{-1} (x - u_k)) = exp(-\frac{1}{2} (x - u)^T \Sigma^{-1} (x - u))

其中 η\eta 是与 x 无关的归一化常数,Σ1=Σk=1KΣk1,Σ1u=Σk=1KΣk1uk\Sigma^{-1} = \Sigma_{k=1}^{K} \Sigma^{-1}_{k} , \Sigma^{-1} u = \Sigma_{k=1}^{K} \Sigma^{-1}_{k} u_k

高斯推断

(x,y) 服从多元高斯分布,p(x,y)=N((uxuy),(ΣxxΣxyΣyxΣyy))p(x,y) = N(( \begin{matrix} u_x \\ u_y \end{matrix}), (\begin{matrix} \Sigma_{xx} \Sigma_{xy} \\ \Sigma_{yx} \Sigma_{yy} \end{matrix}))

可以证明,p(xy)=N(ux+ΣxyΣyy1(yuy),ΣxxΣxyΣyy1Σyx)p(x|y) = N(u_x+\Sigma_{xy}\Sigma_{yy}^{-1}(y-u_y), \Sigma_{xx}-\Sigma_{xy}\Sigma_{yy}^{-1}\Sigma_{yx})

p(y)=N(uy,Σyy)p(y) = N(u_y,\Sigma_{yy})

含义:已知状态的先验分布 p(x) 和观测分布 p(y) 都是高斯分布,可以基于观测去调整估计值得到 p(x|y),由上面公式可知 p(x|y) 相较于 p(x) 协方差矩阵变小,在某种程度上使得不确定性减少了

线性变换

对于高斯分布 X ~ N(ux,Σxx)N(u_x, \Sigma_{xx}),对其进行相同维度的线性变换 y = g(x) = Gx + b,可得 uy=Gux+b,Σyy=GΣxxGTu_y = Gu_x+b, \Sigma_{yy} = G\Sigma_{xx}G^T

非线性变换

对于高斯分布 X ~ N(ux,Σxx)N(u_x, \Sigma_{xx}),对其进行非线性变换/映射/函数,得到 y = g(x) + w, w ~ N(0, R),一般来说,随机变量 Y 不服从高斯分布,只有当 x 确定时,y 服从高斯分布,因其只受高斯噪声 w 的干扰,即 p(y|x) = N(g(x), R)

对于非线性变换可以利用泰勒公式将其线性化,从而符合高斯分布