矩阵分析 (七) 矩阵特征值的估计

1,982 阅读4分钟

我的微信公众号名称:深度学习与先进智能决策 微信公众号ID:MultiAgent1024 公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!

  矩阵特征值是矩阵的重要参数之一。从前面的讨论可以看到,把矩阵对角化或者求矩阵的约当标准形、判别矩阵的收敛,以及矩阵函数的性质都与特征值有关。当矩阵的阶数高于五次时,没有求根公式,这个时候如果能够给出特征值的位置或者给出特征值的取值范围,会对解决问题有一定的帮助。

  不具体求特征值,而是给出特征值的范围,这就是特征值估计问题。例如讨论矩阵幂级数\sum_{k=0}^{\infty}C_{k}A^{k}是否收敛,只要知道矩阵A的谱半径是否小于幂级数\sum_{k=0}^{\infty}C_{k}z^{k}的收敛半径即可。

  在自动控制理论中,系统的稳定性与特征值的实数部分的符号有关,如果实数部分为负,则系统稳定。因此通过矩阵本身的数值来给出特征值的范围就显得很重要。

特征值界的估计

  前面讲到范数时曾经有:

\rho(A) \leq ||A||

  即矩阵的谱半径小于任何一个矩阵的范数,而范数可以通过矩阵本身的数值来计算,不需要解方程。

  下面给出特征值的估计。

  如果\lambdaA的特征值,x为特征向量,则Ax=\lambda x,进一步假设x是单位向量,则x^{H}x=1,两边乘以x^{H}

x^{H}Ax=\lambda x^{H}x =\lambda

  即\lambda可以由x^{H}Ax决定,可以通过估计这个函数来估计特征值。

  • 定理7.1:设A \in C^{n \times n},x \in C^{n},且||x||_{2}=1,则:
|x^{H}Ax| \leq ||A||_{m_{\infty}}
  • 推论:由\lambda=x^{H}Ax,得| \lambda | \leq ||A||_{m_{\infty}}

  • 定理7.2 设:

A \in C^{n \times n},
B= \frac{1}{2}(A+A^{H}),C= \frac{1}{2}(A-A^{H})

  则A的特征值\lambda满足:

|Re \lambda| \leq ||B||_{m_{\infty}},|Im \lambda | \leq ||C||_{{m_{\infty}}}
  • 推论:厄米特矩阵的特征值都是实数,反厄米特矩阵的特征值为零或者纯虚数。

  • 定理7.3:(舒尔定理) 设A \in C^{n \times n}的特征值为\lambda_{1},\lambda_{2},\cdots \lambda_{n},则:

|\lambda_{1}|^{2}+|\lambda_{2}|^{2}+\cdots |\lambda_{n}|^{2} \leq ||A||_{F}^{2}

  且等式成立的充要条件是A为正规矩阵。

特征值的包含区域

  上一节给出了特征值大小的估计,这一节介绍一些判别矩阵特征值位置的方法。

Gerschgorin 盖尔圆定理

  与上一节类似,我们需要用矩阵元素给出特征值的估计。设\lambdaA=(a_{ij})_{n \times n}的特征值,x=(x_{1},x_{2},\cdots ,x_{n})^{T}A的属于\lambda的特征向量,则由Ax=\lambda x得:

\sum_{j=1}^{n}a_{ij}x_{j}=\lambda x_{i} (i=1,2,\cdots , n)
x_{i}(\lambda -a_{ii}) =\sum_{j=1,j \neq i}^{n}a_{ij}x_{j}
|\lambda-a_{ii}|=|\sum a_{ij} \frac{x_{j}}{x_{i}}| \leq \sum|a_{ij}| |\frac{x_{j}}{x_{i}}|

  如果|x_{i}| \geq |x_{j}|,则|\frac{x_{j}}{x_{i}}| \leq 1得:

|\lambda - a_{ii}| = \sum_{j=1,j \neq i}^{n}|a_{ij}|

  上述不等式在几何上是一个圆,即特征值落在一个圆中

  • 定义 设A=(a_{ij})_{n \times n},记:
R_{i}=\sum_{j=1 ,j \neq i}^{n} |a_{ij}|

  称复平面的圆域:

G_{i} = \{z||z-a_{ii}| \leq R_{i} , z \in C\}

  为A的第i个盖尔圆,称R_{i}为盖尔圆的半径,由于:

x=(x_{1},x_{2},\cdots ,x_{n})

  的分量中必有一个x_{i}使得|x_{i}| = max_{j}|x_{j}|,所以必有一个i使得:

|\lambda - a_{ii}| \leq R_{i}

  成立,由此得到:

  • 定理7.4:矩阵A \in C^{n \times n}的全体特征值都在它的n个盖尔圆构成的并集之中。

  注意到A \in C^{n \times n}A^{T}的特征值相同,根据定理7.4可得,A的特征值也在A^{T}n个盖尔圆构成的并集之中。称A^{T}的盖尔圆为A列盖尔圆

  根据盖尔圆理论,对任何矩阵A特征值一定满足|\lambda -a_{ii}| \leq R_{i}。若\lambda =0,则|a_{ii}| \leq R_{i}

  从这里可以看出,若矩阵A严格对角占优,即|a_{ii}| > R_{i},则:

\lambda \neq 0,|A| \neq 0
  • 推论:若A为实矩阵A \in R^{n \times n},且An个盖尔圆是孤立的,则An个互不相同的实特征值。

  A实矩阵时,特征方程|\lambda E -A| = 0为实代数方程,它的复根一定成对出现,一定是共轭的,即a \pm ib的形式,且|\lambda -a_{ii}|的形式,且|\lambda -a_{ii}| \leq R_{i}中,a_{ii}是实数,特征值一定是实数

特征值的隔离

  前面讲述了用盖尔圆分析特征值的方法,当矩阵AB相似,即B =C^{-1}AC时,AB有相同的特征值。利用这一个性质,可以通过改变盖尔圆的大小,分析某个特征值的位置。在这里取比较简单的C,可以取成对角矩阵,且对角线元素为正。

C=diag(c_{1},c_{2},\cdots ,c_{n})
B=CAC^{-1} = (a_{ij} \frac{c_{i}}{c_{j}})_{n\times n}

  则AB有相同的特征值,通过适当地选取正数c_{1}c_{2}\cdotsc_{n},有可能使每一个盖尔圆包含A的一个特征值。选取c_{1}c_{2}\cdotsc_{n}的一般原则是,欲使A的第i盖尔圆缩小,可取c_{i }<1,其余取为1,此时B的其他盖尔圆适量放大;反之,欲使A的第i个盖尔圆放大,可取c_{i} > 1,其余取为1,此时B的其余盖尔圆适量缩小。