《线性估计》 Chapter 2 确定性最小二乘问题（DETERMINISTIC LEAST-SQUARES PROBLEMS）

2.3最重要

2.1至2.2可能很快就会被略读，并在第二节中进行了更悠闲的讨论后重读

2.6重要，阐述了纯粹确定性最小二乘问题与随机最小二乘问题之间的一些重要类比

2.7讲了一个研究比较少的东西：在不确定的度量空间而不是通常的欧几里德空间中工作可能会有所帮助，和1.6.3,1.6.4的 $\mathcal{H}_{\infty}$ 问题有关

2.8描述了在这个经典领域中继续进行重要工作的许多方向

2.1确定性最小二乘准则(THE DETERMINISTIC LEAST-SQUARES CRITERION)

一个不一致(不相等)超定的线性方程组（an inconsistent overdetermined set of linear equations）

定义一个残差（residual） $v$ ,使成立:(2.1.2)

即Hx和y之间的误差为v

我们规定**最小化残差向量v的长度(这里取平方欧几里得范数)**为 确定性最小二乘准则 以此来得到最小二乘解 (A least-squares (LS) solution) $\hat{x}$

并且有性质：

\|v\|^{2}=\|y-H \hat{x}\|^{2} \leq\|y-H x\|^{2}

也可以选择另外的准则：最小化v的欧几里得范数：

\|y-H x\left\|_{1}=\right\| v \|_{1}=\sum_{i=1}^{N}|v(i)|

2.2经典解法

定义cost function $J(X)$ , 其最小值的解 $\hat{x}$ 就是最小二乘解

J(x) \triangleq\|y-H x\|^{2}=x^{*} H^{*} H x-x^{*} H^{*} y-y^{*} H x+y^{*} y

2.2.1 The Normal Equations

Lemma 2.1.1 [normal equation] 满足此nomal equation的 $\hat{x}$ 就是最小二乘解

**proof：**令 $J(X)$ 一阶导数为零导出即上式,并且二阶导数半正定，所以一阶导数大于零，所以此式子下x为最小值解

此时最小值cost function为：

J(\hat{x}) \triangleq\|y-H \hat{x}\|^{2}=\|y\|^{2}-y^{*} H \hat{x}=\|y\|^{2}-\|H \hat{x}\|^{2}

Lemma 2.2.2 (Unique Solutions) H 列满秩时 -> $H^{*} H$ 是可逆矩阵

\hat{x}=\left(H^{*} H\right)^{-1} H^{*} y

此时cost function为：

J(\hat{x})=\|y-H \hat{x}\|^{2}=y^{*}\left(I-H\left(H^{*} H\right)^{-1} H^{*}\right) y

Lemma 2.2.3 (The General Case) 在满足normal function前提下，有总结如下:

(a) When H is full rank, the unique solution is given by x = (H* H)-1 H*y. (b) When H is not full rank, the normal equations always have more than one solution,where any two solutions x1and x2 differ by a vector in the nul/space of H, i.e., H(x1- x2) = 0. (c) The projection of y onto C(H) is unique and is defined by $\hat{y} \triangleq H \hat{x}$ , where x is any solution to the normal equations; when H has full rank, we can write

as: $\hat{y}=H\left(H^{*} H\right)^{-1} H^{*} y$

注:

伪逆矩阵是逆矩阵的广义形式,由于奇异矩阵或非方阵的矩阵不存在逆矩阵，但在matlab里可以用函数pinv(A)求其伪逆矩阵。函数返回一个与A的转置矩阵A' 同型的矩阵X，并且满足：AXA=A,XAX=X.此时，称矩阵X为矩阵A的伪逆，也称为广义逆矩阵。

黑塞矩阵（Hessian Matrix），又译作海森矩阵、海瑟矩阵、海塞矩阵等，是一个多元函数的二阶偏导数构成的方阵，描述了函数的局部曲率。

2.2.2 加权最小二乘问题（Weighted Least-Squares Problems）

在许多应用中（例如自适应过滤），加权最小二乘准则更合适：

J(x)=\|y-H x\|_{W}^{2} \triangleq(y-H x)^{*} W(y-H x)

W is any Hermitian positive-definite matrix

**厄米特矩阵（Hermitian Matrix）**厄米特矩阵（Hermitian Matrix，又译作“埃尔米特矩阵”或“厄米矩阵”），指的是自共轭矩阵。矩阵中每一个第i行第j列的元素都与第j行第i列的元素的共轭相等。埃尔米特矩阵主对角线上的元素都是实数的，其特征值也是实数。

Lemma 2.2.4 (Weighted Least-squares Solutioos) normal function: (2.2.10)

有以下性质: (2.2.9)

\left\|y-H \hat{x}_{W}\right\|_{W}^{2} \leq\|y-H x\|_{W}^{2}

此时，最小值COST FUNCTION为：

J(\hat{x})=\|y-H \hat{x}\|_{W}^{2}=y^{*} W y-y^{*} W H \hat{x}

当 H 列满秩时:

\hat{\mathbf{x}}=\left(H^{*} W H\right)^{-1} H^{*} W \mathbf{y}

J(\hat{x})=\|y-H \hat{x}\|_{W}^{2}=y^{*}\left(W-W H\left(H^{*} W H\right)^{-1} H^{*} W\right) y

2.2.3 噪声的统计假设

形式为 $y = H x + v$ ，其中x是确定性但未知的向量，而v是随机向量，是具有已知均值和方差的“噪声”或“干扰”矢量，例如Ev = 0和Evv * = Rv。在这种情况下，加权最小二乘估计器:

$\hat{x}$ 也是随机向量: ????

E \hat{\mathbf{x}}=E\left(H^{*} W H\right)^{-1} H^{*} W \mathbf{y}=x

$x$ 和 $\hat{x}$ 的协方差为：

E(\hat{\mathbf{x}}-x)(\hat{\mathbf{x}}-x)^{*}=\left(H^{*} W H\right)^{-1} H^{*} W R_{\mathrm{y}} W H\left(H^{*} W H\right)^{-1}

当

时，协方差有最小值：

E(\hat{\mathbf{x}}-x)(\hat{\mathbf{x}}-x)^{*}=\left(H^{*} W H\right)^{-1}

$\hat{x}$ 通常被称为最小方差无偏估计量（MVUE）或高斯-马尔可夫估计量，并且以上结果实际上来自于高斯-马尔可夫定理 (3.4..2会介绍)

2.3几何公式：正交条件

目标：找到 $J(\hat{x})$ 的最小值解

J(\hat{x}) \triangleq\|y-H \hat{x}\|^{2}

其几何意义为：在H的列空间中，找到一个向量 $\hat{y}=H\hat{x}$ 由列空间向量的线性组合构成，使得 $y-\hat{y}$ 的长度最短，即C(H)和error vertor正交

此式子可以由normal function直接推导得到

即

\|y-H \hat{x}\|^{2} \triangleq\left\|y-\sum_{i=0}^{n-1} \underline{h}_{i} \hat{x}(i)\right\|^{2}=\text { minimum. }

此处的H为3×2矩阵，以上几何意义是在三维空间中的，以上所谈可以用于任意N维向量。

我们从3维空间得出的几何直觉对我们的特定问题有效的原因是3维空间中的内积的性质会延续到任何线性向量空间，对于这些线性向量空间，内积的概念已得到适当定义。 换句话说，我们现在吸引这样一个事实，即数学家已经开发出带有内积的线性向量空间的一般表述（所谓的内积空间），其中向量和内积可以是遵循某些规则的抽象对象。

但是对于加权最小二乘问题：

加权矩阵W必须是正定的，而且我们必须记住，并不是我们所有的三维直觉都可以延续到N维空间。

2.3.1内积空间中的投影定理

本节是对2.3中几何意义的稍微严谨一点的证明。

在任意内积空间中的一个投影事实：

Let $\mathcal{L}$ be a linear subspace of $\mathcal{V}$ and let $y$ be an arbitrary element of $\mathcal{V}$ The projection of $y$ onto $\mathcal{L},$ denoted by $\hat{y}_{\mathcal{L}},$ or often just $\hat{y},$ is a unique element of $\mathcal{L}$ such that：

\langle y-\hat{y}, a\rangle= 0, \quad \text { for all } a \in \mathcal{L}

Lemma 2.3.1 (Orthogonality and Approximation)

Let $\mathcal{L}$ be a subspace of a linear vector space $\mathcal{V}$ and let $y$ be any element of $\mathcal{V} .$ Then the projection, \hat{y} c , has the property that

$\left\|y-\hat{y}_{\mathcal{L}}\right\|^{2} \leq\|y-a\|^{2}$ for any $a \in \mathcal{L}$

证明： We can write

\begin{aligned}
\|y-a\|^{2} &=\left\|y-\hat{y}_{\mathcal{L}}+\hat{y}_{\mathcal{L}}-a\right\|^{2} \\
&=\left\|y-\hat{y}_{\mathcal{L}}\right\|^{2}+\left\|\hat{y}_{\mathcal{L}}-a\right\|^{2}+\left\langle y-\hat{y}_{\mathcal{L}}, \hat{y}_{\mathcal{L}}-a\right\rangle+\left\langle\hat{y}_{\mathcal{L}}-a, y-\hat{y}_{\mathcal{L}}\right\rangle
\end{aligned}

But since $\hat{y}_{L} \in \mathcal{L}$ and $a \in \mathcal{L},\left(\hat{y}_{\mathcal{L}}-a\right) \in \mathcal{L}$ and, by definition, $\left(y-\hat{y}_{\mathcal{L}}\right)$ is orthogonal to $\left(\hat{y}_{\mathcal{L}}-a\right) .$ Therefore

\left\|y-\hat{y}_{L}\right\|^{2}=\|y-a\|^{2}-\left\|\hat{y}_{L}-a\right\|^{2} \leq\|y-a\|^{2}

2.3.2 几何见解（Geometric Insights）

引理2.3.1证明了本节开头使用的几何参数的合理性：

The subspace $\mathcal{L}$ is now the space $\mathcal{R}(H)$ spanned by the columns of the matrix H. The least-squares solution, $\hat{x},$ is characterized by the fact that the residual vector $y-H \hat{x}$ is orthogonal to $\mathcal{R}(H),$ or equivalently, $\hat{y} \triangleq H \hat{x}$ is given by the unique projection of $y$ onto $\mathcal{R}(H) .$ This is depicted in Fig. 2.1

几何公式的另一个好处是，立即可以得到normal function的最小值解。

回想 Lemma 2.2.3 ：

H列满秩时， $H \hat{x}\triangleq\hat{y}$ , $\hat{x}$ 只有唯一解

H列不满秩，, $\hat{x}$ 可能有无穷解或者零解

$y$ 的投影 $\hat{y}$ 是唯一的

2.3.3 投影矩阵

\hat{y}=H \hat{x}=H\left(H^{*} W H\right)^{-1} H^{*} W y \triangleq \mathcal{P}_{H} y

${P}_{H}$ 是 $y$ 用来投影到 $R(H)$ 得到 $\hat{y}$ 的投影矩阵

2.3.4 应用：顺序递归最小二乘(An Application: Order-Recursive Least-Squares)

意义：递归解法 == 动态规划 == 卡尔曼滤波 ==强化学习

给 H 多增加一个列向量h，h代表了新的 information ,可以用来更新求解式子（动态规划方法）

用几何观点来理解以下推导（见笔记本）

\left[\begin{array}{ll}
{H} & \underline{h_{n}}
\end{array}\right]\left[\begin{array}{c}
{x} \\
{x(n)}
\end{array}\right] \cong y

\hat{x}_{n+1, N}=\left(\left[\begin{array}{l}
{H^{*}} \\
{\underline{h}_{n}^{*}}
\end{array}\right]\left[\begin{array}{ll}
{H} & {\underline{h}_{n}}
\end{array}\right]\right)^{-1}\left[\begin{array}{l}
{H^{*}} \\
{\underline{h}_{n}^{*}}
\end{array}\right] y

\hat{\underline{h}}_{n}=\mathcal{P}_{H} h_{n}=H\left(H^{*} H\right)^{-1} H^{*} \underline{h}_{n}=H a

\tilde{\underline{h}}_{n}=\underline{h}_{n}-\hat{\underline{h}}_{n}=\underline{h}_{n}-\mathcal{P}_{H} \underline{h}_{n}=\boldsymbol{h}_{n}-\boldsymbol{H} a

\hat{y}_{n+1}=\mathcal{P}_{H} y+\mathcal{P}_{\hat{\underline{h}}_{n}} y=H \hat{x}_{n, N}+\mathcal{P}_{\tilde{\underline{h}}_{n}} y

\mathcal{P}_{\underline{h}_{0}} y=\frac{\tilde{h}_{n}^{*} y}{\left\|\tilde{h}_{n}\right\|^{2}} \tilde{h}_{n}=\beta \tilde{h}_{n}

\hat{y}_{n+1}=H \hat{x}_{n, N}+\beta \tilde{h}_{n}=H \hat{x}_{n, N}+\beta\left[h_{n}-H a\right]=\left[\begin{array}{ll}
{H} & {\underline{h}_{n}}
\end{array}\right]\left[\begin{array}{c}
{\hat{x}_{n, N}-\beta a} \\
{\beta}
\end{array}\right]

递归解：

\hat{x}_{n+1, N}=\left[\begin{array}{c}
{\hat{x}_{n}-a \beta} \\
{\beta}
\end{array}\right]

2.4 正则化的最小二乘问题(REGULARIZED LEAST-SQUARES PROBLEMS)

以加权最小二乘问题为基础出发，在cost function里多加一个附加项

J(x)=\left(x-x_{0}\right)^{*} \Pi_{0}^{-1}\left(x-x_{0}\right)+\|y-H x\|_{W}^{2}

附加项表示了我们的最优解和一个预估值x0的接近程度，TI0代表了权重

这个额外的项可以改善出现在正规方程中的矩阵的条件数，从而导致更好的数值行为
{TI0，x0}允许我们将其他先验知识整合到问题陈述中
Tio的不同选择将表明我们对最佳解x与给定向量xo的接近程度的信心
TI0越小越反映出对xo是最佳解x的良好猜测的高度信心

conclusion：

2.5 解normal function的算法：QR方法(AN ARRAY ALGORITHM: THE QR METHOD)

详细请见

对于over-determined的线性最小二乘问题，正规方程组是不稳定的，通常需要用QR分解来处理：

理论很美好，在小数据量的时候没问题，然而直接使用正规方程组求解会在数据量大(e.g. data size > 100)的时候不稳定numerically unstable。原因是需要对
求逆，而A我们都知道是Vandermonde矩阵的一部分，本身就是poorly conditioned，而
只会更糟糕。解决的方法是使用QR分解，这也是Python MATLAB求解线性最小二乘问题的方法。

$H^{*} H$ is Hermitian and positive-definite, 所以数值计算上喜欢用柯列斯基分解来解。

Solve the lower triangular system of equations $\hat{R}^{*} w=H^{*} y$ for $w$
Solve the upper triangular system of equations $\hat{R} \hat{x}=w$ for $\hat{x}$ .

直接用回代法即可求解,因为左边的系数矩阵都是三角阵。

好处：不用求逆矩阵，并且比LU分解快两倍。
坏处：但是，这个程序在实现时可能会遇到数值困难这是因为对于病态数据矩阵(ill-conditioned matrices) h，当矩阵乘积 h * h 形成时，数值精度就丧失了（ h * h 不可逆）。

ill-conditioned matrices are those that have a very large ratio of the largest to the smallest singular values For further discussion, see any textbook on numerical linear algebra, $e . g,$ those cited at the end of

ill-conditioned H example:

$H=\left[\begin{array}{ll}{1} & {1} \\ {0} & {\epsilon} \\ {1} & {1}\end{array}\right]$ $H^{*} H=\left[\begin{array}{ll}{2} & {2} \\ {2} & {2+\epsilon^{2}}\end{array}\right]=\left[\begin{array}{ll}{2} & {2} \\ {2} & {2}\end{array}\right]$ 是一个奇异矩阵，数值精度丧失？

解决病态矩阵问题的最佳工程方法是重新检查物理问题，看看是否通过一些合理的改变(例如，使用不同的变量，使用不同的基函数，使用不同的近似)我们可以得到一组新的更好的条件方程。

如果此方法不可行，则引入QR分解！（代价是很慢）

逻辑：

避免数值精度丧失 -> R就不要通过 $H^{*} H$ 来求 -> 让R从H来求 - > QR分解大法！

H=\hat{Q} \hat{R} \text { where } H \in \mathbf{C}^{N \times n} \text { and } \operatorname{rank} H=n \leq N

and $\hat{Q} \in \mathbb{C}^{N \times n}$ 是正交矩阵, and $\hat{R} \in \mathbb{C}^{n \times n}$ is upper triangular with positive diagonal entries Now note that

H^{*} H=\hat{R}^{*} \hat{Q}^{*} \hat{Q} \hat{R}=\hat{R}^{*} \hat{R}

即 $\hat{R}$ can be found directly from $H$ without forming $H^{*} H$ !

$\hat{R} \hat{x}=w,$ where $\hat{R}^{*} w=H^{*} y .$ But note that $w=\hat{R}^{-*}(\hat{Q} \hat{R})^{*} y=\hat{R}^{-*} \hat{R}^{*} \hat{Q}^{*} y=\hat{Q}^{*} y$

即 $\hat{R}$ can be found directly from $Q$ without forming $H^{*} H$ !

此时cost function:

\|y-H \hat{x}\|^{2}=\left\|y-\hat{Q} \hat{R} \hat{R}^{-1} \hat{Q}^{*} y\right\|^{2}=\left\|\left(I-\hat{Q} \hat{Q}^{*}\right) y\right\|^{2}

小结：

因此，当H well-condition时（通常意味着我们已经制定了物理问题的良好模型），直接解normalfunction就足够了。如前所述，当H ill-conditioned且not full rank时，重新检查物理问题，看看是否通过一些合理的改变(例如，使用不同的变量，使用不同的基函数，使用不同的近似)我们可以得到一组新的更好的条件方程。如果这不是一个选择，那么建议使用QR方法。有时，建议使用基于H的奇异值分解的甚至更稳定但更昂贵的方法

扩展：

在随机过程估计中，normal function方法将类似于所谓的维纳滤波器方法（基于功率谱/协方差函数），而QR方法类似于（状态空间）基于模型的卡尔曼滤波器方法。

2.6 更新最小二乘法：RLS算法(UPDATING LEAST-SQUARES SOLUTIONS: RLS ALGORITHMS)

由于存在最小二乘问题，方程式N的数量可能比未知数n的数量大得多，并且随着我们收集更多的观察值而实际上可能增加，因此实际数据的存储也可能会成为问题。这些问题可以通过使用所谓的递归更新方法来缓解，当最小二乘问题的数据顺序出现时，这些方法当然特别有用。

2.6.1 The RLS Algorithm

正则化的最小二乘问题assume that W = I and xo = 0

有cost function:(2.6.4)

\min _{x}\left[x^{*} \Pi_{0}^{-1} x+\left\|y_{i}-H_{i} x\right\|^{2}\right]

Lemma 2.6 .1 (Recursive Updating: The RLS Algorithm) The solution $\hat{x}_{i}$ of problem $(2.6 .4)$ can be computed as

\hat{x}_{i}=\hat{x}_{i-1}+k_{p, i}\left(y(i)-h_{i} \hat{x}_{i-1}\right), \quad \hat{x}_{-1}=0

where $^{6} k_{p, i}=P_{i-1} h_{i}^{*} r_{e}^{-1}(i), r_{e}(i)=1+h_{i} P_{i-1} h_{i}^{*},$ and $P_{i}$ satisfies the Riccati recursion

P_{i}=P_{i-1}-P_{i-1} h_{i}^{*}\left(1+h_{i} P_{i-1} h_{i}^{*}\right)^{-1} h_{i} P_{i-1}, \quad P_{-1}=\Pi_{0}

and $\hat{x}_{i-1}$ is the regularized least-squares solution of $(2.6 .2) .$ The effort required for one step of the recursion is $O\left(n^{2}\right)$ flops.so that for N steps we need only $O\left(Nn^{2}\right)$ operations vs 直接解nomal function时间复杂度为 $O\left(N^{3}\right)$

注意！一个引人注目的事实是，除了用确定性量代替随机量之外，引理2.6.1中给出的解与特殊状态空间模型的（卡尔曼滤波器）解相同

我们还注意到，可以通过显示它们与某些随机状态空间估计问题的等价关系，来概括该连接，并用于解决一些确定性控制和自适应滤波问题。即用解决卡尔曼滤波的方法来解决RLS算法问题

随机最小化与确定性最小化之间的等价关系将使我们能够获得一般递归算法的更简单推导以及各种替代形式

2.6.2 An Array Algorithm for RLS

用解决卡尔曼滤波的方法来解决RLS算法问题

kalman filiter 状态空间表达式:

\begin{array}{l}
{\hat{\mathbf{x}}_{i+1}=\hat{\mathbf{x}}_{i}+k_{p, i}\left[\mathbf{y}(i)-h_{i} \hat{\mathbf{x}}_{i}\right], \quad \hat{\mathbf{x}}_{0}=0} \\
{k_{p, i}=P_{i} h_{i}^{*} r_{e}^{-1}(i), \quad r_{e}(i)=1+h_{i} P_{i} h_{i}^{*}} \\
{P_{i+1}=P_{i}-P_{i} h_{i}^{*}\left(1+h_{i} P_{i} h_{i}^{*}\right)^{-1} h_{i} P_{i}, \quad P_{0}=\Pi_{0}}
\end{array}

和RLS几乎一模一样

Table 2.2 Correspondence between RLS and Kalman variables. $\begin{array}{|c|c|}\hline \text { Kalman problem } & {\text { RLS problem }} \\ \hline \mathbf{x} & {x} \\ {\mathbf{y}(i)} & {y(i)} \\ {\mathbf{e}(i)} & {e_{a}(i)} \\ {\mathbf{h}_{0}} & {h_{i}} \\ {\mathbf{R}_{p_{p}, i}} & {\boldsymbol{k}_{p, i}} \\ {r_{e}(i)} & {r_{e}(i)} \\ \hline\end{array}$

所以我们可以调用Prob. 1.6解决卡尔曼滤波的方法来解决RLS算法问题：

\left[\begin{array}{cc} {P_{i-1}^{-* / 2}} & {h_{i}^{*}} \\ {\hat{x}_{i-1}^{*} P_{i-1}^{-* / 2}} & {y^{*}(i)} \\ {0} & {1} \end{array}\right] \Theta=\left[\begin{array}{cc} {P_{i}^{-* / 2}} & {0} \\ {\hat{x}_{i}^{*} P_{i}^{-++/ 2}} & {e_{a}^{*}(i) r_{e^{-} / 2}^{-* / 2}(i)} \\ {h_{i} P_{i}^{1 / 2}} & {r_{e}^{-* / 2}(i)} \end{array}\right]

这些方程式在自适应滤波文献中被称为OR算法

2.7 降级最小二乘解决方案(DOWNDATING LEAST-SQUARES SOLUTIONS)

现在我们将引入一个新问题，即消除早期数据(H的最前面的rows)的影响的问题，这称为降级downdating。

原问题：

H_{i} x=\underbrace{\left[\begin{array}{l}
{h_{0}} \\
{H_{1: i}}
\end{array}\right]}_{H_{0 i}} \approx\left[\begin{array}{l}
{y(0)} \\
{y_{1: i}}
\end{array}\right]=y_{i}

降级(消除上述方程式中row 1的影响)后：

通过类似2.6的分析方法，得到降级的递归式:

Lemma 2.7.1 (Recursive Downdating) Suppose. $\hat{x}_{1 i}$ is the regularized least-squares solution to the overdetermined system of linear equations $H_{1: i} x \cong y_{1: i},$ obtained by deleting the first equation in the system $(2.7 .1) .$ Then

\hat{x}_{1: i}=\hat{x}_{0: i}+k_{p, 1: i}\left(y(0)-h_{0} \hat{x}_{0 i}\right)

where $k_{p, 1: i}=P_{0 i, i} h_{0}^{*} r_{e}^{-1}(1: i), r_{e}(1: i)=-1+h_{0} P_{0: h}^{*},$ and

P_{1: i}=P_{0 i}-\frac{P_{0 i} h_{0}^{*} h_{0} P_{0 i}}{-1+h_{0} P_{0 i} h_{0}^{*}}

也和卡尔曼滤波有一些关系......

2.8 最小二乘问题的一些变化

文献中已经提出了最小二乘标准的其他变体，目的是解决基于最小二乘的设计的某些缺陷。

对于measurement equation(2.1.2),当 $H$ 出现扰动项Perturbation errors的时候，有

\|y-(H+\Delta H) \hat{x}\| \leq \underbrace{\|y-H \hat{x}\|}_{\text {LS residual }}+\underbrace{\|\Delta H \hat{x}\|}_{\text {sdditional term }}

仅当向量 $\Delta H \hat{x}$ 恰好与原始残差向量y-H x共线时，新残差范数的上限才是tight的。此时才会降低最小二乘解性能的扰动！why???

数据中的扰动误差在实践中很常见，这可能是由于多种因素引起的，包括用简单模型逼近复杂模型，收集数据时发生实验误差，甚至存在未知或未建模的影响。

2.8.1总体最小二乘准则The Total Least-Squares Criterion

1介绍

总体最小二乘法是一种较为先进的最小二乘法结构，总体最小二乘法认为回归矩阵存在干扰，在计算最小二乘解时考虑了这个因素，而在一般最小二乘法时没有考虑该因素的影响。

原理：

求解Ax=b的最小二乘法只认为b含有误差，但实际上系数矩阵A也含有误差。总体最小二乘法就是同时考虑A和b二者的误差和扰动，令A矩阵的误差扰动为E，向量b的误差向量为e，即考虑矩阵方程：

$(A+E)x=b+e (1)$ 的最小二乘解。上式(1)可写作：

$(B+D)z=0 (2)$

式中 $B=[-b|A]，D=[-e|E]，z=[1|x]。$

求解方程组的总体最小二乘法(TLS)就是求解向量 $z$ ，使得扰动矩阵 $D$ 的F-范数（Frobenius norm）最小。

设计用来处理H和y中的数据错误的一个准则是所谓的总最小二乘方法Total Least-Squares (TLS)，在统计和系统识别中也称为正交回归orthogonal regression或不变变量方法errors-invariables.

奇异值分解在最小二乘法问题中有重要应用，因为在实际问题中常碰到矩阵A 不是列满秩的状态，因此ATA 不可逆，无法用之前的方法求最优解。即使是列满秩的情况当矩阵是超大型矩阵时，ATA 的计算量太大，用奇异值分解的办法会降低计算量，见如下：

TLS解最终证实了对正则化最小二乘解的解释.More specifically, assume $H$ is full rank with smallest singular value $\sigma_{n}$ . Assume also $[H \quad y]$ is full rank with smallest singular value $\bar{\sigma}_{n+1} .$ When $\bar{\sigma}_{n+1}<\sigma_{n},$ a unique solution to the TLS problem exists and it can be expressed in the form(满足奇异值分解的某种条件，TLS就有如下唯一解)

\hat{\boldsymbol{x}}=\left(H^{*} \boldsymbol{H}-\tilde{\boldsymbol{\sigma}}_{\boldsymbol{n}+1}^{2} \boldsymbol{I}_{\boldsymbol{n}}\right)^{-1} \boldsymbol{H}^{*} \boldsymbol{y}

与（2.4.7）相比，我们可以将TLS解视为正则化成本函数的解，但具有负定矩阵的解 $\Pi_{0}$ 不存在。 $\Pi_{0}^{-1}$ 被 $-\tilde{\boldsymbol{\sigma}}_{\boldsymbol{n}+1}^{2} \boldsymbol{I}_{\boldsymbol{n}}$ 替换

正则化最小二乘的解：（2.4.7）

\hat{x}=x_{0}+\left[\Pi_{0}^{-1}+H^{*} W H\right]^{-1} H^{*} W\left[y-H x_{0}\right]

替换后，正则化最小二乘的目标函数由：

\min _{x}\left[\left(x-x_{0}\right)^{*} \Pi_{0}^{-1}\left(x-x_{0}\right)+\|y-H x\|_{\Psi}^{2}\right]

可写为：

\min _{x}\left[\|y-H x\|^{2}-\bar{\sigma}_{n+1}^{2}\|x\|^{2}\right]

2.8.2数据不确定性有条件的标准Criteria with Bounds on Data Uncertainties

Appendix for Chapter 2

Part 1

解的分析有四种情况

(1)有不止一个解，当且仅当 y 在column space of H并且null space of H不为零。== H不列满秩且有解

此时任意的两个解使成立：

即

(2)方程(2.A.1)有唯一解，当且仅 y 在column space of H并且H列满秩

方程?xH=y?则是同理由row space of H来入手.

(3)H为方阵且满秩，则方程(2.A.1)有解且有唯一解 $x=H^{-1} y$

(4)方程无解，y不在column space of H

Part 2

Lemma $\left.2 \mathrm{A} .2 \text { (Range Spaces of } H^{*} \text { and } H^{*} H\right) \quad$ Let $H$ be an $N \times n$ matrix with comnlex entries. Then we have $\mathcal{R}\left(H^{*} H\right)=\mathcal{R}\left(H^{*}\right)$

normal funtion：

H列满秩时，x有唯一解

H不列满秩时，x可能有多解或者无解，由引理2知道，x必有解！

不管怎样 y 的投影向量是唯一的。证明见笔记。