矩阵分析 (六) 矩阵的函数

2,445 阅读4分钟

我的微信公众号名称:深度学习与先进智能决策 微信公众号ID:MultiAgent1024 公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!

矩阵的微分和积分

  定义:以变量t的函数为元素的矩阵A(t)=(a_{ij}(t))_{m \times n}称为函数矩阵,这里a_{ij}(t)t的函数。当a_{ij}(t)都可微时,规定导数为:

A^{'}(t)=(a_{ij}^{'}(t))_{m \times n}

或:

\frac{dA(t)}{dt}=(\frac{d}{dt}a_{ij}(t))_{m \times n}

  而当a_{ij}(a,b)上可积时,规定A的积分为:

\int^{b}_{a}A(t)dt=(\int_{a}^{b}a_{ij}(t)dt)_{m \times n}

求导法则

  设A(t)B(t)是适当阶数的可微矩阵时,\lambda(t)是可微函数。

  1. (A+B)^{'}=A^{'}+B^{'};

  2. (\lambda A)^{'}=\lambda^{'}A+\lambda A^{'}

  3. (A \cdot B)^{'}=A^{'}B+A B^{'}

  4. u=f(t)关于t可微时:\frac{dA(u)}{dt}=\frac{dA(u)}{du}\cdot\frac{du}{dt};

  5. A^{-1}(t)可微时,(A^{-1}(t))^{'}=-A^{-1}(t)A^{'}(t)A^{-1}(t)

  第五个等式的证明如下:

0=I^{\prime}=\left(X X^{-1}\right)^{\prime}=X^{\prime} X^{-1}+X\left(X^{-1}\right)^{\prime}
\Rightarrow\left(X^{-1}\right)^{\prime}=-X^{-1} X^{\prime} X^{-1}
  • 例题8:设F=AX,A=(a_{ij})_{m \times n}X=(x_{1},x_{2},\cdots ,x_{n})^{T}\frac{dF}{dX^{T}}

  

\frac{dF}{dX^{T}}=A
  • 例题9:设f=X^{T}YX=(x_{1},x_{2},\cdots ,x_{n})^{T},Y=(y_{1},y_{2},\cdots ,y_{n})^{T},求\frac{df}{dX}y_{i}X的函数)。

  

\frac{dF}{dX}=\frac{dX^{T}}{dX}Y+\frac{dY^{T}}{dX}\cdot X

  最小二乘解也可以通过这种方式求出,对误差的平方求导数即可得到。

矩阵序列及矩阵级数

定义:设有C^{n \times n}的矩阵序列\{A^{(k)}\},其中:

A^{k}=(a_{ij}^{k})_{m \times n}

  若有:

lim_{k \rightarrow \infty}a_{ij}^{k}=a_{ij}

  则称矩阵序列A^{k}收敛于A,A=(a_{ij})_{n \times n}\{A(k)\}的极限,记为:

lim_{k \rightarrow \infty}A^{(k)}=A或A^{k} \rightarrow A

  不收敛的序列称之为发散序列。

  • 定理6.1:设A^{k},A \in C^{n \times n},则lim_{k \rightarrow \infty}A^{k}=A的充要条件是:
lim_{k \rightarrow \infty}||A^{k}-A||=0,

  其中||\cdot||C^{n \times n}上的任何一个范数。

  • 定理6.2:设:
A^{k} \rightarrow A,B^{k} \rightarrow B,

  其中:

A^{k},B^{k},A,B

  是适当阶段的矩阵,a,b \in C是常数,则:

  1. aA^{k}+bB^{k} \rightarrow aA+bB

  2. A^{k} \cdot B^{k} \rightarrow AB

  • 定义6.5:设A\in C^{n \times n},若lim_{k \rightarrow \infty}A^{k}=0,则称A为收敛矩阵,这里A^{k}Ak次方。

  • 定理6.3 :设A \in C^{n \times n},则A为收敛矩阵的充要条件是\rho < 1

矩阵的级数

  • 定义6.6:由C^{n \times n}的矩阵序列\{A^{(k)}\}构成的无穷级数:
A^{(0)}+A^{(1)}+\cdots + A^{(k)}+\cdots

  称为矩阵级数,记为\sum_{k=0}^{+\infty}A^{(k)}。对任一正整数N,称S^{N}=\sum_{k=0}^{N}A^{k}为矩阵级数的部分和,如果由部分和构成的矩阵序列\{S^{N}\}收敛,且有极限,即:

lim_{N \rightarrow \infty}S^{N}=S

  则称矩阵级数\sum_{k=0}^{+\infty}A^{k}收敛,而且有和S,记为:

S=\sum_{k=0}^{+\infty} A^{k}
  • 定义6.7:设A^{(k)}=(a_{ij}^{k})_{n \times n},如果n^{2}个数量级数:
\sum_{k=0}^{+ \infty}a_{ij}^{k}

  都绝对收敛,即:

\sum_{k=0}^{+ \infty}|a_{ij}^{k}|

  收敛,则称级数\sum_{k=0}^{+ \infty}A^{k}绝对收敛

  • 定理6.4:设A^{k}=(a_{ij}^{(k)})_{n \times n},则矩阵级数\sum_{k=0}^{+ \infty}A^{k}绝对收敛的充要条件是\sum_{k=0}^{+ \infty}||A^{k}||收敛,其中||\cdot||C^{n \times n}上的任一矩阵范数。

矩阵的幂级数

  • 定义6.8: 设A \in C^{n \times n},a_{k} \in C(k=0,1,2,\cdots),称矩阵级数:
\sum_{k=0}^{+\infty}a_{k}A^{k}

  为矩阵A的幂级数。

  利用定义来判断矩阵幂级数的敛散性,需要判别n^{2}个数项级数的敛散性,当矩阵的阶数较大时,这很不方便,且在许多情况下也不必要。矩阵幂级数是复变量z的幂级数的推广,如果\sum_{k=0}^{\infty}a_{k}z^{k}的收敛半径为R,则对于收敛圆|z|< R内的所有z,都是绝对收敛,因此,讨论级数的收敛性问题,自然联系到\sum_{k=0}^{\infty}a_{k}z^{k}的收敛半径,关于矩阵幂级数有下面的结论:

  • 定理6.5:设\sum_{k=0}^{\infty}a_{k}z^{k}的收敛半径为RA \in C^{n \times n},则:
  1. \rho(A)< R时,\sum_{k=0}^{\infty}a_{k}z^{k}绝对收敛;

  2. \rho(A)> R时,\sum_{k=0}^{\infty}a_{k}z^{k}发散。

矩阵函数

  • 矩阵函数定义

  这里利用方阵的幂级数来定义矩阵函数:

  在复变函数中,一些函数可以表达成无穷级数的和,即函数可以展开:

e^{Z}=\sum_{n=0}^{+\infty}\frac{z^{n}}{n!}

  利用这种展开可以定义矩阵函数:

e^{A}=\sum_{n=0}^{+\infty}\frac{A^{n}}{n!}

  称之为矩阵A的指数函数,而相应的幂级数的收敛半径为无穷大,所以对任何矩阵都收敛。

  • 计算矩阵函数

  这里介绍计算矩阵函数的最小多项式的方法

  若f(\lambda)是多项式,m(\lambda)A的最小多项式,它的次数为m,以m(\lambda)去除f(\lambda)得:

f(\lambda)=m(\lambda)q(\lambda)+r(\lambda)

  这里r(\lambda)=0或者比m(\lambda)的次数更低,因此:

f(A)=m(A)q(A)+r(A)=r(A)

  由此可见,次数高于m次的任一多项式f(A)都可以化为次数\leq m-1A的多项式r(A)来计算,这一思想可以推广到由矩阵幂级数确定的矩阵函数f(A)上,有如下定理:

  • 定理6.6:设n阶矩阵A的最小多项式为m次多项式:
m(\lambda)=(\lambda-\lambda_{1})^{n_{1}}(\lambda-\lambda_{2})^{n_{2}}\cdots(\lambda-\lambda_{s})^{n_{s}}

  其中,\lambda_{1},\lambda_{2},\cdots,\lambda_{s}A的所有不同的特征值,与f(z)=\sum_{k=0}^{+\infty}C_{k}z^{k}相应的f(A)=\sum_{k=0}^{\infty}C_{k}A^{k}A的幂级数,则:

f(A)=a_{0}E+a_{1}A+\cdots +a_{m-1}A^{m-1}

  系数a_{0},a_{1},\cdots,a_{m-1}满足下列方程组:

a_{0}+a_{i}\lambda_{i}+\cdots +a_{m-1}\lambda_{i}^{m-1}=f(\lambda_{i})
a_{1}+2a_{2}\lambda_{i}+\cdots+(m-1)a_{m-1}\lambda_{i}^{m-2}=f^{'}(\lambda_{i})
(n_{i}-1)a_{n_{i-1}}+\cdots+(m-1)\cdots(m-n_{i}+1)a_{m-1}\lambda_{i}^{m-n_{i}+1}=f^{(n_{i}-1)}(\lambda_{i})

  即:

f(\lambda)=a_{0}+a_{1}\lambda+\cdots+a_{m-1}\lambda^{m-1}

  求n_{i}-1次导数,得到n_{i}个子式,在这些式子中把\lambda_{i}代入。事实上,设:

f(\lambda)=m(\lambda)q(\lambda)+r(\lambda)

  两边求导

f^{'}(\lambda)=m^{'}(\lambda)q(\lambda)+m(\lambda)q^{'}(\lambda)+r^{'}(\lambda)

  而m(\lambda)m^{'}(\lambda)\lambda=\lambda_{i}时为零,因为m(\lambda)中有(\lambda-\lambda_{i})^{n_{i}},所以可以求n_{i}-1次导数,代入时只有r^{n_{i}-1}(\lambda_{i})不是零。

  • 例16:设
A=\left(\begin{array}{ccc}
{2} & {1} & {4} \\
{0} & {2} & {0} \\
{0} & {3} & {1}
\end{array}\right)

  

f(\lambda)=(\lambda-1)(\lambda-2)^{2}

  而(\lambda-1)(\lambda-2)不是零化多项式,所以最小多项式是:

m(\lambda)=f(\lambda)

  设:

e^{At}=a_{0}E+a_{1}A+a_{2}A^{2}

  由

e^{\lambda t}=a_{0}+a_{1}\lambda+a_{2}\lambda^{2}

  两边求导:

te^{\lambda t}=a_{1}+2a_{2}\lambda

  再带入特征值得

\begin{aligned}
&\mathrm{e}^{t}=a_{0}+a_{1}+a_{2}\\
&\mathrm{e}^{2 t}=a_{0}+2 a_{1}+4 a_{2}\\
&t e^{2 t}=a_{1}+4 a_{2}
\end{aligned}

  解出:

\begin{aligned}
&a_{0}=4 \mathrm{e}^{t}-3 \mathrm{e}^{2 t}+2 t \mathrm{e}^{2 t}\\
&a_{1}=-4 \mathrm{e}^{4}+4 \mathrm{e}^{2 t}-3 t \mathrm{e}^{2 t}\\
&a_{2}=\mathrm{e}^{t}-\mathrm{e}^{2 t}+t \mathrm{e}^{2 t}
\end{aligned}

  代入得:

\mathrm{e}^{A t}=\mathrm{e}^{2 t}\left(\begin{array}{ccc}
{1} & {12 \mathrm{e}^{-t}-12+13 t} & {-4 \mathrm{e}^{-t}+4} \\
{0} & {1} & {0} \\
{0} & {-3 \mathrm{e}^{-t}+3} & {\mathrm{e}^{-t}}
\end{array}\right)

矩阵函数的性质

  这里讨论一下矩阵函数的一些性质:

  1. sin(-A)=-sin(A)cos(-A)=cos(A)

  2. A,B \in C^{n\times n},当AB=BA 时,e^{A+B}=e^{A} \cdot B^{B}=e^{B} \cdot B^{A}

  3. 由欧拉公式容易得到:

e^{iA}=cos(A)+isin(A)
cos(A)=\frac{1}{2}(e^{iA}+e^{-iA})
sin(A)=\frac{1}{2i}(e^{iA}-e^{-iA})
  1. 利用上面的公式容易得到,当AB=BA时:
sin(A+B)=sin(A)cos(B)+cos(A)sin(B)
cos(A+B)=cos(A)cos(B)-sin(A)sin(B)

矩阵函数在微分方程组中的应用

  考虑一阶常系数非齐次方程组:

\left\{\begin{array}{l}
{\frac{\mathrm{d} X}{\mathrm{d} t}=A X+F(t)} \\
{\left.X\right|_{t=t_{0}}=X\left(t_{0}\right)}
\end{array}\right.

  其解为:

X(t)=e^{A\left(t-t_{0}\right)} X\left(t_{0}\right)+\int_{t_{0}}^{t} e^{A(t-\tau)} F(\tau) d \tau

线性系统的能控性与能观性

  能控性概念理解

  考虑一阶常系数非齐次方程组:

\left\{\begin{array}{l}
{\frac{\mathrm{d} X}{\mathrm{d} t}=A X+F(t)} \\
{\left.X\right|_{t=t_{0}}=X\left(t_{0}\right)}
\end{array}\right.

  其解为:

X(t)=e^{A\left(t-t_{0}\right)} X\left(t_{0}\right)+\int_{t_{0}}^{t} e^{A(t-\tau)} F(\tau) d \tau

  如果能够通过输入控制输出,也就是控制F(t),使其最后的解能够可控,我们称这个系统是能控的。

  • 定义6.9:对于一个线性定常系统,若在某个有限时间[0,t_{1}]内存在输入\mu(t),(0 \leq t \leq t_{1})能够使系统从任意初始状态X(0)=X_{0}转移到X_{t_{1}}=0,则称此状态是能控的;若系统的所有状态时能控的,则称此系统是完全能控的

  由前面知道系统的解为:

X(t_{1})=e^{At_{1}} X\left(0\right)+\int_{0}^{t_{1}} e^{A(t_{1}-\tau)} Bu(\tau) d \tau

  想要:

X(t_{1})=0

  得:

e^{At_{1}} X(0)+\int_{t_{0}}^{t_{1}} e^{At_{1}} \cdot  e^{-A\tau}B(\tau) d \tau=0

  约去e^{At_{1}}得:

X(0)+\int_{t_{0}}^{t_{1}}    e^{-A\tau}B(\tau) d \tau=0

  可见,只要取恰当的u使得上式等于0即可:

  通过观察,可取:

u(t)=-B^{\mathrm{T}} \mathrm{e}^{-A^{\mathrm{T}} t}\left(\int_{0}^{t_{1}} \mathrm{e}^{-A \tau} B B^{\mathrm{T}} \mathrm{e}^{-A^{\mathrm{T}} \tau} \mathrm{d} \tau\right)^{-1} X(0)

  当然这里假设了矩阵:

W_{c}=\left(\int_{0}^{t_{1}} \mathrm{e}^{-A \tau} B B^{\mathrm{T}} \mathrm{e}^{-A^{\mathrm{T}} \tau} \mathrm{d} \tau\right)^{-1}

  可逆。即这个矩阵可逆时系统能控。