矩阵分析 (六) 矩阵的函数定义：以变量的函数为元素的矩阵称为函数矩阵，这里是的函数。当都可微时，规定导数为：设与是适

我的微信公众号名称：深度学习与先进智能决策 微信公众号ID：MultiAgent1024 公众号介绍：主要研究分享深度学习、机器博弈、强化学习等相关内容！期待您的关注，欢迎一起学习交流进步！

矩阵的微分和积分

定义：以变量 $t$ 的函数为元素的矩阵 $A(t)=(a_{ij}(t))_{m \times n}$ 称为函数矩阵，这里 $a_{ij}(t)$ 是 $t$ 的函数。当 $a_{ij}(t)$ 都可微时，规定导数为：

或：

\frac{dA(t)}{dt}=(\frac{d}{dt}a_{ij}(t))_{m \times n}

而当 $a_{ij}$ 在 $(a,b)$ 上可积时，规定 $A$ 的积分为：

\int^{b}_{a}A(t)dt=(\int_{a}^{b}a_{ij}(t)dt)_{m \times n}

求导法则：

设 $A(t)$ 与 $B(t)$ 是适当阶数的可微矩阵时， $\lambda(t)$ 是可微函数。

$(A+B)^{'}=A^{'}+B^{'}$ ;
$(\lambda A)^{'}=\lambda^{'}A+\lambda A^{'}$
$(A \cdot B)^{'}=A^{'}B+A B^{'}$
当 $u=f(t)$ 关于 $t$ 可微时： $\frac{dA(u)}{dt}=\frac{dA(u)}{du}\cdot\frac{du}{dt}$ ;
当 $A^{-1}(t)$ 可微时， $(A^{-1}(t))^{'}=-A^{-1}(t)A^{'}(t)A^{-1}(t)$

第五个等式的证明如下：

0=I^{\prime}=\left(X X^{-1}\right)^{\prime}=X^{\prime} X^{-1}+X\left(X^{-1}\right)^{\prime}

\Rightarrow\left(X^{-1}\right)^{\prime}=-X^{-1} X^{\prime} X^{-1}

例题8：设 $F=AX$ , $A=(a_{ij})_{m \times n}$ ， $X=(x_{1}，x_{2}，\cdots ，x_{n})^{T}$ 求 $\frac{dF}{dX^{T}}$ 。

解：

例题9：设 $f=X^{T}Y$ ， $X=(x_{1}，x_{2}，\cdots ,x_{n})^{T}，Y=(y_{1}，y_{2}，\cdots ,y_{n})^{T}$ ，求 $\frac{df}{dX}$ （ $y_{i}$ 是 $X$ 的函数）。

解：

\frac{dF}{dX}=\frac{dX^{T}}{dX}Y+\frac{dY^{T}}{dX}\cdot X

最小二乘解也可以通过这种方式求出，对误差的平方求导数即可得到。

矩阵序列及矩阵级数

定义：设有 $C^{n \times n}$ 的矩阵序列 $\{A^{(k)}\}$ ，其中：

若有：

lim_{k \rightarrow \infty}a_{ij}^{k}=a_{ij}

则称矩阵序列 $A^{k}$ 收敛于 $A$ , $A=(a_{ij})_{n \times n}$ 为 $\{A(k)\}$ 的极限，记为：

lim_{k \rightarrow \infty}A^{(k)}=A或A^{k} \rightarrow A

不收敛的序列称之为发散序列。

定理6.1：设 $A^{k}$ , $A \in C^{n \times n}$ ，则 $lim_{k \rightarrow \infty}A^{k}=A$ 的充要条件是：

lim_{k \rightarrow \infty}||A^{k}-A||=0,

其中 $||\cdot||$ 是 $C^{n \times n}$ 上的任何一个范数。

定理6.2：设：

A^{k} \rightarrow A,B^{k} \rightarrow B,

其中：

是适当阶段的矩阵， $a,b$ $\in$ $C$ 是常数，则：

$aA^{k}+bB^{k} \rightarrow aA+bB$
$A^{k} \cdot B^{k} \rightarrow AB$

定义6.5：设 $A\in C^{n \times n}$ ，若 $lim_{k \rightarrow \infty}A^{k}=0$ ，则称 $A$ 为收敛矩阵，这里 $A^{k}$ 是 $A$ 的 $k$ 次方。
定理6.3 ：设 $A \in C^{n \times n}$ ，则 $A$ 为收敛矩阵的充要条件是 $\rho < 1$ 。

矩阵的级数

定义6.6：由 $C^{n \times n}$ 的矩阵序列 $\{A^{(k)}\}$ 构成的无穷级数：

称为矩阵级数，记为 $\sum_{k=0}^{+\infty}A^{(k)}$ 。对任一正整数 $N$ ，称 $S^{N}=\sum_{k=0}^{N}A^{k}$ 为矩阵级数的部分和，如果由部分和构成的矩阵序列 $\{S^{N}\}$ 收敛，且有极限，即：

则称矩阵级数 $\sum_{k=0}^{+\infty}A^{k}$ 收敛，而且有和 $S$ ，记为：

定义6.7：设 $A^{(k)}=(a_{ij}^{k})_{n \times n}$ ，如果 $n^{2}$ 个数量级数：

都绝对收敛，即：

收敛，则称级数 $\sum_{k=0}^{+ \infty}A^{k}$ 绝对收敛。

定理6.4：设 $A^{k}=(a_{ij}^{(k)})_{n \times n}$ ，则矩阵级数 $\sum_{k=0}^{+ \infty}A^{k}$ 绝对收敛的充要条件是 $\sum_{k=0}^{+ \infty}||A^{k}||$ 收敛，其中 $||\cdot||$ 是 $C^{n \times n}$ 上的任一矩阵范数。

矩阵的幂级数

定义6.8：设 $A \in C^{n \times n}$ , $a_{k} \in C(k=0,1,2,\cdots)$ ,称矩阵级数：

为矩阵 $A$ 的幂级数。

利用定义来判断矩阵幂级数的敛散性，需要判别 $n^{2}$ 个数项级数的敛散性，当矩阵的阶数较大时，这很不方便，且在许多情况下也不必要。矩阵幂级数是复变量 $z$ 的幂级数的推广，如果 $\sum_{k=0}^{\infty}a_{k}z^{k}$ 的收敛半径为 $R$ ,则对于收敛圆 $|z|< R$ 内的所有 $z$ ，都是绝对收敛，因此，讨论级数的收敛性问题，自然联系到 $\sum_{k=0}^{\infty}a_{k}z^{k}$ 的收敛半径，关于矩阵幂级数有下面的结论：

定理6.5：设 $\sum_{k=0}^{\infty}a_{k}z^{k}$ 的收敛半径为 $R$ ， $A \in C^{n \times n}$ ，则：

当 $\rho(A)< R$ 时， $\sum_{k=0}^{\infty}a_{k}z^{k}$ 绝对收敛；
当 $\rho(A)> R$ 时， $\sum_{k=0}^{\infty}a_{k}z^{k}$ 发散。

矩阵函数

矩阵函数定义：

这里利用方阵的幂级数来定义矩阵函数：

在复变函数中，一些函数可以表达成无穷级数的和，即函数可以展开：

e^{Z}=\sum_{n=0}^{+\infty}\frac{z^{n}}{n!}

利用这种展开可以定义矩阵函数：

e^{A}=\sum_{n=0}^{+\infty}\frac{A^{n}}{n!}

称之为矩阵 $A$ 的指数函数，而相应的幂级数的收敛半径为无穷大，所以对任何矩阵都收敛。

计算矩阵函数：

这里介绍计算矩阵函数的最小多项式的方法：

若 $f(\lambda)$ 是多项式， $m(\lambda)$ 是 $A$ 的最小多项式，它的次数为 $m$ ，以 $m(\lambda)$ 去除 $f(\lambda)$ 得：

f(\lambda)=m(\lambda)q(\lambda)+r(\lambda)

这里 $r(\lambda)=0$ 或者比 $m(\lambda)$ 的次数更低，因此：

由此可见，次数高于 $m$ 次的任一多项式 $f(A)$ 都可以化为次数 $\leq m-1$ 的 $A$ 的多项式 $r(A)$ 来计算，这一思想可以推广到由矩阵幂级数确定的矩阵函数 $f(A)$ 上，有如下定理：

定理6.6：设 $n$ 阶矩阵 $A$ 的最小多项式为 $m$ 次多项式：

m(\lambda)=(\lambda-\lambda_{1})^{n_{1}}(\lambda-\lambda_{2})^{n_{2}}\cdots(\lambda-\lambda_{s})^{n_{s}}

其中， $\lambda_{1},\lambda_{2},\cdots,\lambda_{s}$ 是 $A$ 的所有不同的特征值，与 $f(z)=\sum_{k=0}^{+\infty}C_{k}z^{k}$ 相应的 $f(A)=\sum_{k=0}^{\infty}C_{k}A^{k}$ 是 $A$ 的幂级数，则：

f(A)=a_{0}E+a_{1}A+\cdots +a_{m-1}A^{m-1}

系数 $a_{0},a_{1},\cdots,a_{m-1}$ 满足下列方程组：

a_{0}+a_{i}\lambda_{i}+\cdots +a_{m-1}\lambda_{i}^{m-1}=f(\lambda_{i})

a_{1}+2a_{2}\lambda_{i}+\cdots+(m-1)a_{m-1}\lambda_{i}^{m-2}=f^{'}(\lambda_{i})

(n_{i}-1)a_{n_{i-1}}+\cdots+(m-1)\cdots(m-n_{i}+1)a_{m-1}\lambda_{i}^{m-n_{i}+1}=f^{(n_{i}-1)}(\lambda_{i})

即：

f(\lambda)=a_{0}+a_{1}\lambda+\cdots+a_{m-1}\lambda^{m-1}

求 $n_{i}-1$ 次导数，得到 $n_{i}$ 个子式，在这些式子中把 $\lambda_{i}$ 代入。事实上，设：

两边求导

f^{'}(\lambda)=m^{'}(\lambda)q(\lambda)+m(\lambda)q^{'}(\lambda)+r^{'}(\lambda)

而 $m(\lambda)$ ， $m^{'}(\lambda)$ 当 $\lambda=\lambda_{i}$ 时为零，因为 $m(\lambda)$ 中有 $(\lambda-\lambda_{i})^{n_{i}}$ ,所以可以求 $n_{i}-1$ 次导数，代入时只有 $r^{n_{i}-1}(\lambda_{i})$ 不是零。

例16：设

A=\left(\begin{array}{ccc}
{2} & {1} & {4} \\
{0} & {2} & {0} \\
{0} & {3} & {1}
\end{array}\right)

解：

而 $(\lambda-1)(\lambda-2)$ 不是零化多项式，所以最小多项式是：

设：

由

e^{\lambda t}=a_{0}+a_{1}\lambda+a_{2}\lambda^{2}

两边求导：

再带入特征值得

\begin{aligned}
&\mathrm{e}^{t}=a_{0}+a_{1}+a_{2}\\
&\mathrm{e}^{2 t}=a_{0}+2 a_{1}+4 a_{2}\\
&t e^{2 t}=a_{1}+4 a_{2}
\end{aligned}

解出：

\begin{aligned}
&a_{0}=4 \mathrm{e}^{t}-3 \mathrm{e}^{2 t}+2 t \mathrm{e}^{2 t}\\
&a_{1}=-4 \mathrm{e}^{4}+4 \mathrm{e}^{2 t}-3 t \mathrm{e}^{2 t}\\
&a_{2}=\mathrm{e}^{t}-\mathrm{e}^{2 t}+t \mathrm{e}^{2 t}
\end{aligned}

代入得：

\mathrm{e}^{A t}=\mathrm{e}^{2 t}\left(\begin{array}{ccc}
{1} & {12 \mathrm{e}^{-t}-12+13 t} & {-4 \mathrm{e}^{-t}+4} \\
{0} & {1} & {0} \\
{0} & {-3 \mathrm{e}^{-t}+3} & {\mathrm{e}^{-t}}
\end{array}\right)

矩阵函数的性质

这里讨论一下矩阵函数的一些性质：

$sin(-A)=-sin(A)$ ， $cos(-A)=cos(A)$
设 $A,B \in C^{n\times n}$ ，当 $AB=BA$ 时， $e^{A+B}=e^{A} \cdot B^{B}=e^{B} \cdot B^{A}$ 。
由欧拉公式容易得到：

利用上面的公式容易得到，当 $AB=BA$ 时：

矩阵函数在微分方程组中的应用

考虑一阶常系数非齐次方程组：

\left\{\begin{array}{l}
{\frac{\mathrm{d} X}{\mathrm{d} t}=A X+F(t)} \\
{\left.X\right|_{t=t_{0}}=X\left(t_{0}\right)}
\end{array}\right.

其解为：

X(t)=e^{A\left(t-t_{0}\right)} X\left(t_{0}\right)+\int_{t_{0}}^{t} e^{A(t-\tau)} F(\tau) d \tau

线性系统的能控性与能观性

能控性概念理解：

考虑一阶常系数非齐次方程组：

其解为：

如果能够通过输入控制输出，也就是控制 $F(t)$ ，使其最后的解能够可控，我们称这个系统是能控的。

定义6.9：对于一个线性定常系统，若在某个有限时间 $[0,t_{1}]$ 内存在输入 $\mu(t)$ , $(0 \leq t \leq t_{1})$ 能够使系统从任意初始状态 $X(0)=X_{0}$ 转移到 $X_{t_{1}}=0$ ，则称此状态是能控的；若系统的所有状态时能控的，则称此系统是完全能控的。