深入理解卡尔曼滤波器（1）：背景知识本文已参与「新人创作礼」活动，一起开启掘金创作之路。背景知识在介绍卡尔曼滤波器

本文已参与「新人创作礼」活动，一起开启掘金创作之路。

声明：本文图文均来源于www.kalmanfilter.net/，如有侵权请联系删除。

本文由微信公众号【DeepDriving】整理，由于全文内容较多所以分成3部分发出来。关注公众号【DeepDriving】，后台回复关键字【卡尔曼滤波器】可获取全文PDF。

背景知识

在介绍卡尔曼滤波器之前，我们先来学习一些跟数学相关的基础知识。

均值与期望值

均值（Mean）和期望值（Expected Value）是两个相似但不相同的概念。假如我们有2枚5分的硬币和3枚10分的硬币，很容易可以算出它们的均值：

V_{mean}= \frac{1}{N} \sum _{n=1}^{N}V_{n}= \frac{1}{5} \left( 5+5+10+10+10 \right) = 8 分

上面的结果不能称为期望值，因为系统的状态不是隐式的并且我们用了全部的5枚硬币来计算均值。

现在假设一个人连续测5次体重，得到的结果分别为：79.8千克、80千克、 80.1千克、79.8千克、80.2千克，体重秤自身的随机测量误差导致每次的测量值都不同。我们并不知道真实的体重到底是多少，因为这是一个隐式变量，但是我们可以对5次的测量结果求平均值来估计出一个相对准确的体重值：

W= \frac{1}{N} \sum _{n=1}^{N}W_{n}= \frac{1}{5} \left( 79.8+80+80.1+79.8+80.2 \right) = 79.98 千克

上面这个平均值就可以称为是隐式变量体重的期望值。均值通常使用希腊字母 $\mu$ 来表示，期望值则用字母 $E$ 来表示。

方差与标准差

方差（Variance）用来衡量一组数据的离散程度，即样本数据与均值之间的偏差；标准差（Standard Deviation）是方差的平方根，一般用希腊字母 $\sigma$ 来表示，并将方差表示为 $\sigma^{2}$ 。

假设有两支高中篮球队队员的身高如下表所示：

	队员1	队员2	队员3	队员4	队员5	平均值
A队	1.89m	2.1m	1.75m	1.98m	1.85m	1.914m
B队	1.94m	1.9m	1.97m	1.89m	1.87m	1.914m

我们想比较一下这两个篮球队队员的身高数据。首先，从上表中可以知道两个队的平均身高是一样的。更进一步地，我们可以比较它们的方差和标准差。用 $x$ 表示身高， $\mu$ 表示身高的平均值，根据方差和标准差的计算公式

\sigma ^{2}= \frac{1}{N} \sum _{n=1}^{N} \left( x_{n}- \mu \right) ^{2}

\sigma =\sqrt[]{\frac{1}{N} \sum _{n=1}^{N} \left( x_{n}- \mu \right) ^{2}}

求得A队身高的方差 $\sigma^{2}_{A}=0.014m^{2}$ ，标准差 $\sigma_{A}=0.12m$ ；B队身高的方差 $\sigma^{2}_{B}=0.0013m^{2}$ ，标准差 $\sigma_{B}=0.036m$ 。从两队身高的方差可以知道，A队队员身高的差异性更大一些。

假如我们要计算所有高中篮球队所有队员身高的均值和方差，这将会是一个很难完成的任务，因为需要从每个学校的每个队员那里统计数据。不过我们可以收集一个比较大的数据集，然后通过这个数据集来估计所有队员身高的均值和方差。比如，我们可以随机收取100个队员的身高数据，这个数据集足以对所有队员身高的均值和方差进行准确的估计。需要注意的是，这时计算方差的公式与上面的略有不同，除数是 $N-1$ 而不是 $N$ ：

\sigma ^{2}= \frac{1}{N-1} \sum _{n=1}^{N} \left( x_{n}- \mu \right) ^{2}

系数 $N-1$ 被称为贝塞尔校正（Bessel's correction），详细的数学证明可以参考这篇文章。

正态分布

许多自然现象都遵循正态分布（Normal Distribution）的规律。还是以篮球运动员的身高为例，如果我们随机抽取队员的身高建立一个大的数据集，并绘制出身高数值与其出现频次的图表，我们将会得到一个类似下图的钟型曲线：

可以看到这条曲线是以均值1.9m为中心的对称曲线，并且均值附近的数值出现的次数远高于远端数值出现的次数。这组数据的标准差为0.2m，如下图所示，有68.26%的值位于距均值一个标准差的范围内（1.7m~2.1m）:

正态分布又被称为高斯分布，其公式如下：

f \left( x; \mu , \sigma ^{2} \right) = \frac{1}{\sqrt[]{2 \pi \sigma ^{2}}}e^{\frac{- \left( x- \mu \right) ^{2}}{2 \sigma ^{2}}}

上面的曲线被称为是正态分布的概率密度函数（Probability Density Function，PDF）。

测量误差通常是符合正态分布的，所以我们在设计卡尔曼滤波器的时候会假设测量误差是呈正态分布的。

随机变量

如果用测速枪测量一辆行驶中的车辆的车速，那么测速枪的测量值是一个随机变量，测量的结果呈正态分布。随机变量可以是连续的，也可以是离散的，所有测量值都是连续随机变量。

估计、准确度与精确度

估计（Estimate）是对系统隐式状态的一次估算。比如飞机的真实位置对于观察者来说是一个隐式的状态值，我们可以用雷达等传感器来进行测量并通过多传感器融合及跟踪算法来提升估计的准确度。测量或者计算出的参数都是估计值。

准确度（Accuracy）用来表示测量值与真实值的接近程度。

精确度（Precision）用来表示测量结果的再现性。

估计需要考虑系统的准确性与精确性，下图说明了准确度与精确度的关系：

高精确度系统的测量值的方差小（低的不确定度），反之，低精确度系统的测量值的方差大（高的不确定度），方差是由随机测量误差造成的。

低准确度的系统被称为有偏系统，因为其测量值总会存在一个内在的系统误差（偏差）。

对测量值进行平均或平滑处理可以显著地降低方差的影响。比如，如果我们使用带有随机测量误差的温度计来测量温度，测量误差将会导致测量值可能高于或者低于真实值。我们可以进行多次测量并对其求平均值，这个估计值将会接近真实值，测量次数越多，估计值就越接近真实值。但如果温度计本身有偏差，那么估计值会有一个固定的系统误差。

下图从统计学的角度描述了测量值：

测量值是一个由概率密度函数描述的随机变量；
测量值的均值即为随机变量的期望值；
测量值的均值与真实值之间的偏移被称为偏差或者系统测量误差，用来表示测量的准确度；
测量值分布的离散程度为测量值的精确度，又称为测量噪声（measurement noise）、随机测量误差（random measurement error）或者测量不确定度（measurement uncertainty）。

协方差与协方差矩阵

协方差用来衡量两个随机变量 $x$ 和 $y$ 的联合变化程度，表示的是两个变量的总体的误差，这与方差不同，方差只表示一个变量误差。方差可以看成是协方差的一种特殊情况，即两个变量是一样的。如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反，即其中一个大于自身的期望值，而另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。如果 $x$ 与 $y$ 是统计独立的，那么二者之间的协方差就是0。随机变量 $x$ 与 $y$ 的协方差计算公式如下：

\sigma(x,y)= \frac{1}{N-1} \sum _{n=1}^{N} \left( x_{n}- \mu_{x} \right) \left( y_{n}- \mu_{y} \right)

其中， $\mu_{x}$ 和 $\mu_{y}$ 分别为随机变量 $x$ 与 $y$ 的平均值。

对于一个含有 $k$ 个元素的向量 $\boldsymbol{x}$

\begin{bmatrix} x_{1} & x_{2} & x_{3} & \dots & x_{k} \end{bmatrix}^{T}

其协方差矩阵为

\begin{align*} COV(\boldsymbol{x}) &= E\left( \left[ \begin{matrix} (x_{1} - \mu_{x_{1}})^{2} & (x_{1} - \mu_{x_{1}})(x_{2} - \mu_{x_{2}}) & \cdots & (x_{1} - \mu_{x_{1}})(x_{k} - \mu_{x_{k}}) \\ (x_{2} - \mu_{x_{2}})(x_{1} - \mu_{x_{1}}) & (x_{2} - \mu_{x_{2}})^{2} & \cdots & (x_{2} - \mu_{x_{2}})(x_{k} - \mu_{x_{k}}) \\ \vdots & \vdots & \ddots & \vdots \\ (x_{k} - \mu_{x_{k}})(x_{1} - \mu_{x_{1}}) & (x_{k} - \mu_{x_{k}})(x_{2} - \mu_{x_{2}}) & \cdots & (x_{k} - \mu_{x_{k}})^{2} \\ \end{matrix} \right] \right) \\ &= E\left( \left[ \begin{matrix} (x_{1} - \mu_{x_{1}}) \\ (x_{2} - \mu_{x_{2}}) \\ \vdots \\ (x_{k} - \mu_{x_{k}}) \\ \end{matrix} \right] \left[ \begin{matrix} (x_{1} - \mu_{x_{1}}) & (x_{2} - \mu_{x_{2}}) & \cdots & (x_{k} - \mu_{x_{k}}) \end{matrix} \right] \right) \\ &= E\left( \left( \boldsymbol{x - \mu_{x}} \right) \left( \boldsymbol{x - \mu_{x}} \right)^{T} \right) \end{align*}

基本的期望运算规则

随机变量 $X$ 的期望 $E(X)$ 等于它的平均值：

E(X) = \mu_{X}

一些基本的期望运算规则如下：

规则	备注
$E(X) = \mu_{X}=\sum{xp(x)}$	$p(x)$ 是 $x$ 的概率
$E(a) = a$	$a$ 为常数
$E(aX) = aE(X)$	$a$ 为常数
$E(a\pm{X}) = a\pm{E(X)}$	$a$ 为常数
$E(a\pm{bX}) = a\pm{bE(X)}$	$a,b$ 为常数
$E(X\pm{Y}) = E(X)\pm{E(Y)}$	$Y$ 为另一个随机变量
$E(XY) = E(X)E(Y)$	如果 $X$ 和 $Y$ 相互独立

将随机变量 $X$ 和 $Y$ 的方差分别记为 $V(X)$ 和 $V(Y)$ ，它们的协方差记为 $COV(X,Y)$ ，下面是一些基本的运算规则：

规则	备注
$V(a)=0$	$a$ 为常数
$V(a\pm{X})=V(X)$	$a$ 为常数
$V(X)=E(X^{2})-\mu^{2}_{X}$
$COV(X,Y)=E(XY)-\mu_{X}\mu_{Y}$
$COV(X,Y)=0$	如果 $X$ 和 $Y$ 相互独立
$V(aX) = a^{2}V(X)$	$a$ 为常数
$V(X\pm{Y}) = V(X)+V(Y)\pm{2COV(X,Y)}$
$V(XY) \ne V(X)V(Y)$

下面是对几个公式的证明： (1).

\begin{align*} V(X) &= E((X-\mu_{X})^{2}) \\ &= E(X^{2}-2X\mu_{X}+\mu^{2}_{X}) \\ &= E(X^{2})-E(2X\mu_{X})+E(\mu^{2}_{X}) \\ &= E(X^{2})-2\mu_{X}E(X)+\mu^{2}_{X} \\ &= E(X^{2})-2\mu_{X}\mu_{X}+\mu^{2}_{X} \\ &= E(X^{2})-\mu^{2}_{X} \\ \end{align*}

(2).

\begin{align*} COV(X,Y) &= E((X-\mu_{X})(Y-\mu_{Y})) \\ &= E(XY - X \mu_{Y} - Y \mu_{X} + \mu_{X}\mu_{Y}) \\ &= E(XY) - E(X \mu_{Y}) - E(Y \mu_{X}) + E(\mu_{X}\mu_{Y}) \\ &= E(XY) - \mu_{Y} E(X) - \mu_{X} E(Y) + E(\mu_{X}\mu_{Y}) \\ &= E(XY) - \mu_{Y} \mu_{X} - \mu_{X} \mu_{Y} + \mu_{X}\mu_{Y} \\ &= E(XY) - \mu_{X}\mu_{Y} \\ \end{align*}

(3).

\begin{align*} V(aX) &= E((aX)^{2})-(a\mu_{X})^{2} \\ &= E(a^{2}X^{2})-a^{2}\mu_{X}^{2} \\ &= a^{2}E(X^{2})-a^{2}\mu_{X}^{2} \\ &= a^{2}(E(X^{2})-\mu_{X}^{2}) \\ &= a^{2}V(X) \\ \end{align*}

(4).

\begin{align*} V(X\pm{Y}) &= E((X \pm Y)^{2}) - (\mu_{X} \pm \mu_{Y})^{2} \\ &= E(X^{2} \pm 2XY + Y^{2}) - (\mu_{X}^2 \pm 2\mu_{X}\mu_{Y} + \mu_{y}^2) \\ &= {E(X^{2}) - \mu_{X}^2} + {E(Y^{2}) - \mu_{Y}^2} \pm 2(E(XY) - \mu_{X}\mu_{Y} ) \\ &= {V(X)} + {V(Y)} \pm 2(E(XY) - \mu_{X}\mu_{Y} ) \\ &= V(X) + V(Y) \pm 2COV(X,Y) \\ \end{align*}

矩阵乘积迹的微分

这里我们将对两个公式进行证明。

(1).

\frac{d}{d\boldsymbol{A}} \left( tr\left( \boldsymbol{AB} \right) \right) = \boldsymbol{B}^{T}

证明：

给定两个矩阵 $\boldsymbol{A}$ ( $m\times n$ )和 $\boldsymbol{B}$ ( $n\times m$ )，它们的乘积为

\boldsymbol{AB}= \left[ \begin{matrix} a_{11} & \cdots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{m1} & \cdots & a_{mn} \\ \end{matrix} \right] \left[ \begin{matrix} b_{11} & \cdots & b_{1m} \\ \vdots & \ddots & \vdots \\ b_{n1} & \cdots & b_{nm} \\ \end{matrix} \right] = \left[ \begin{matrix} \sum_{i=1}^{n}a_{1i}b_{i1} & \cdots & \sum_{i=1}^{n}a_{1i}b_{im} \\ \vdots & \ddots & \vdots \\ \sum_{i=1}^{n}a_{mi}b_{i1} & \cdots & \sum_{i=1}^{n}a_{mi}b_{im} \\ \end{matrix} \right]

矩阵 $\boldsymbol{AB}$ 的迹 $tr(\boldsymbol{AB})$ 为它的主对角线元素之和：

tr(\boldsymbol{AB}) = \sum_{i=1}^{n}a_{1i}b_{i1} + \cdots + \sum_{i=1}^{n}a_{mi}b_{im} = \sum_{i=1}^{n}\sum_{j=1}^{m}a_{ji}b_{ij}

对迹 $tr(\boldsymbol{AB})$ 求微分

\begin{align*} \frac{\partial tr(\boldsymbol{AB})}{\partial\boldsymbol{A}} &= \left[ \begin{matrix} \frac{\partial (\sum_{i=1}^{n}\sum_{j=1}^{m}a_{ji}b_{ij})}{\partial a_{11}} & \cdots & \frac{\partial (\sum_{i=1}^{n}\sum_{j=1}^{m}a_{ji}b_{ij})}{\partial a_{1n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial (\sum_{i=1}^{n}\sum_{j=1}^{m}a_{ji}b_{ij})}{\partial a_{m1}} & \cdots & \frac{\partial (\sum_{i=1}^{n}\sum_{j=1}^{m}a_{ji}b_{ij})}{\partial a_{mn}} \\ \end{matrix} \right] \\ &= \left[ \begin{matrix} b_{11} & \cdots & b_{n1} \\ \vdots & \ddots & \vdots \\ b_{1m} & \cdots & b_{nm} \\ \end{matrix} \right] \\ &= \boldsymbol{B}^{T} \end{align*}

(2).

\frac{d}{d\boldsymbol{A}} \left( tr\left( \boldsymbol{ABA^{T}} \right) \right) = 2\boldsymbol{AB}

其中 $\boldsymbol{B}$ 为对称矩阵。

证明：

给定两个矩阵 $\boldsymbol{A}$ ( $m\times n$ )和 $\boldsymbol{B}$ ( $n\times m$ )，

\begin{align*} \boldsymbol{ABA}^{T} &= \left[ \begin{matrix} a_{11} & \cdots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{m1} & \cdots & a_{mn} \\ \end{matrix} \right] \left[ \begin{matrix} b_{11} & \cdots & b_{1n} \\ \vdots & \ddots & \vdots \\ b_{n1} & \cdots & b_{nn} \\ \end{matrix} \right] \left[ \begin{matrix} a_{11} & \cdots & a_{m1} \\ \vdots & \ddots & \vdots \\ a_{1n} & \cdots & a_{mn} \\ \end{matrix} \right] \\ &= \left( \left[ \begin{matrix} \sum_{i=1}^{n}a_{1i}b_{i1} & \cdots & \sum_{i=1}^{n}a_{1i}b_{in} \\ \vdots & \ddots & \vdots \\ \sum_{i=1}^{n}a_{mi}b_{i1} & \cdots & \sum_{i=1}^{n}a_{mi}b_{in} \\ \end{matrix} \right] \right) \left[ \begin{matrix} a_{11} & \cdots & a_{m1} \\ \vdots & \ddots & \vdots \\ a_{1n} & \cdots & a_{mn} \\ \end{matrix} \right] \\ &= \left[ \begin{matrix} \sum_{j=1}^{n}\sum_{i=1}^{n}a_{1i}b_{ij}a_{1j} & \cdots & \sum_{j=1}^{n}\sum_{i=1}^{n}a_{1i}b_{ij}a_{mj} \\ \vdots & \ddots & \vdots \\ \sum_{j=1}^{n}\sum_{i=1}^{n}a_{mi}b_{ij}a_{1j} & \cdots & \sum_{j=1}^{n}\sum_{i=1}^{n}a_{mi}b_{ij}a_{mj} \\ \end{matrix} \right] \\ \end{align*}

矩阵 $\boldsymbol{ABA}^{T}$ 的迹 $tr(\boldsymbol{ABA}^{T})$ 是它的主对角线元素之和：

tr(\boldsymbol{ABA}^{T}) = \sum_{j=1}^{n}\sum_{i=1}^{n}a_{1i}b_{ij}a_{1j} + \cdots + \sum_{j=1}^{n}\sum_{i=1}^{n}a_{mi}b_{ij}a_{mj} = \sum_{k=1}^{m}\sum_{j=1}^{n}\sum_{i=1}^{n}a_{ki}b_{ij}a_{kj}

对迹 $tr(\boldsymbol{ABA}^{T})$ 求微分

\begin{align*} \frac{\partial tr(\boldsymbol{ABA}^{T})}{\partial\boldsymbol{A}} &= \left[ \begin{matrix} \frac{\partial (\sum_{k=1}^{n}\sum_{j=1}^{n}\sum_{i=1}^{n}a_{ki}b_{ij}a_{kj})}{\partial a_{11}} & \cdots & \frac{\partial (\sum_{k=1}^{n}\sum_{j=1}^{n}\sum_{i=1}^{n}a_{ki}b_{ij}a_{kj})}{\partial a_{1n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial (\sum_{k=1}^{n}\sum_{j=1}^{n}\sum_{i=1}^{n}a_{ki}b_{ij}a_{kj})}{\partial a_{m1}} & \cdots & \frac{\partial (\sum_{k=1}^{n}\sum_{j=1}^{n}\sum_{i=1}^{n}a_{ki}b_{ij}a_{kj})}{\partial a_{mn}} \\ \end{matrix} \right] \\ &= \left[ \begin{matrix} \sum_{j=1}^{n}b_{1j}a_{1j} + \sum_{i=1}^{n}a_{1i}b_{i1} & \cdots & \sum_{j=1}^{n}b_{nj}a_{1j} + \sum_{i=1}^{n}a_{1i}b_{in} \\ \vdots & \ddots & \vdots \\ \sum_{j=1}^{n}b_{1j}a_{mj} + \sum_{i=1}^{n}a_{mi}b_{i1} & \cdots & \sum_{j=1}^{n}b_{nj}a_{mj} + \sum_{i=1}^{n}a_{mi}b_{in} \\ \end{matrix} \right] \\ &= \left[ \begin{matrix} \sum_{j=1}^{n}a_{1j}b_{1j} & \cdots & \sum_{j=1}^{n}a_{1j}b_{nj} \\ \vdots & \ddots & \vdots \\ \sum_{j=1}^{n}a_{mj}b_{1j} & \cdots & \sum_{j=1}^{n}a_{mj}b_{nj} \\ \end{matrix} \right] + \left[ \begin{matrix} \sum_{i=1}^{n}a_{1i}b_{i1} & \cdots & \sum_{i=1}^{n}a_{1i}b_{in} \\ \vdots & \ddots & \vdots \\ \sum_{i=1}^{n}a_{mi}b_{i1} & \cdots & \sum_{i=1}^{n}a_{mi}b_{in} \\ \end{matrix} \right] \\ &= \left[ \begin{matrix} a_{11} & \cdots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{m1} & \cdots & a_{mn} \\ \end{matrix} \right] \left[ \begin{matrix} b_{11} & \cdots & b_{n1} \\ \vdots & \ddots & \vdots \\ b_{1n} & \cdots & b_{nn} \\ \end{matrix} \right] + \left[ \begin{matrix} a_{11} & \cdots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{m1} & \cdots & a_{mn} \\ \end{matrix} \right] \left[ \begin{matrix} b_{11} & \cdots & b_{1n} \\ \vdots & \ddots & \vdots \\ b_{n1} & \cdots & b_{nn} \\ \end{matrix} \right] \\ &= \boldsymbol{AB}^{T} + \boldsymbol{AB} \end{align*}

因为矩阵 $\boldsymbol{B}$ 是对称矩阵，所以 $\boldsymbol{B=B^{T}}$ ，可得

\frac{\partial tr(\boldsymbol{ABA}^{T})}{\partial\boldsymbol{A}} = \boldsymbol{AB}^{T} + \boldsymbol{AB} = \boldsymbol{AB} + \boldsymbol{AB} = 2\boldsymbol{AB}

深入理解卡尔曼滤波器（1）： 背景知识