线性代数
1 基本符号
A ∈ R m × n A \in \mathbb{R}^{m \times n} A ∈ R m × n ,表示 A A A 为由实数组成具有m m m 行和n n n 列的矩阵。
x ∈ R n x \in \mathbb{R}^{ n} x ∈ R n ,表示具有n n n 个元素的向量。 通常,向量x x x 将表示列向量: 即,具有n n n 行和1 1 1 列的矩阵。 如果我们想要明确地表示行向量: 具有 1 1 1 行和n n n 列的矩阵 - 我们通常写x T x^T x T (这里x T x^T x T x$的转置)。
x i x_i x i 表示向量x x x 的第i i i 个元素
x = [ x 1 x 2 ⋮ x n ] x=\left[\begin{array}{c}{x_{1}} \\ {x_{2}} \\ {\vdots} \\ {x_{n}}\end{array}\right] x = ⎣ ⎡ x 1 x 2 ⋮ x n ⎦ ⎤
我们使用符号 a i j a_{ij} a ij (或A i j A_{ij} A ij ,A i , j A_{i,j} A i , j 等)来表示第 i i i 行和第j j j 列中的 A A A 的元素:
A = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋯ a m n ] A=\left[\begin{array}{cccc}{a_{11}} & {a_{12}} & {\cdots} & {a_{1 n}} \\ {a_{21}} & {a_{22}} & {\cdots} & {a_{2 n}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {a_{m 1}} & {a_{m 2}} & {\cdots} & {a_{m n}}\end{array}\right] A = ⎣ ⎡ a 11 a 21 ⋮ a m 1 a 12 a 22 ⋮ a m 2 ⋯ ⋯ ⋱ ⋯ a 1 n a 2 n ⋮ a mn ⎦ ⎤
我们用a j a^j a j 或者A : , j A_{:,j} A : , j 表示矩阵A A A 的第j j j 列:
A = [ ∣ ∣ ∣ a 1 a 2 ⋯ a n ∣ ∣ ∣ ] A=\left[\begin{array}{llll}{ |} & { |} & {} & { |} \\ {a^{1}} & {a^{2}} & {\cdots} & {a^{n}} \\ { |} & { |} & {} & { |}\end{array}\right] A = ⎣ ⎡ ∣ a 1 ∣ ∣ a 2 ∣ ⋯ ∣ a n ∣ ⎦ ⎤
2 行列式
行列式按行(列)展开定理
(1) 设A = ( a i j ) n × n A = ( a_{{ij}} )_{n \times n} A = ( a ij ) n × n ,则:a i 1 A j 1 + a i 2 A j 2 + ⋯ + a i n A j n = { ∣ A ∣ , i = j 0 , i ≠ j a_{i1}A_{j1} +a_{i2}A_{j2} + \cdots + a_{{in}}A_{{jn}} = \begin{cases}|A|,i=j\\ 0,i \neq j\end{cases} a i 1 A j 1 + a i 2 A j 2 + ⋯ + a in A jn = { ∣ A ∣ , i = j 0 , i = j
或a 1 i A 1 j + a 2 i A 2 j + ⋯ + a n i A n j = { ∣ A ∣ , i = j 0 , i ≠ j a_{1i}A_{1j} + a_{2i}A_{2j} + \cdots + a_{{ni}}A_{{nj}} = \begin{cases}|A|,i=j\\ 0,i \neq j\end{cases} a 1 i A 1 j + a 2 i A 2 j + ⋯ + a ni A nj = { ∣ A ∣ , i = j 0 , i = j 即 A A ∗ = A ∗ A = ∣ A ∣ E , AA^{*} = A^{*}A = \left| A \right|E, A A ∗ = A ∗ A = ∣ A ∣ E , 其中:A ∗ = ( A 11 A 12 … A 1 n A 21 A 22 … A 2 n … … … … A n 1 A n 2 … A n n ) = ( A j i ) = ( A i j ) T A^{*} = \begin{pmatrix} A_{11} & A_{12} & \ldots & A_{1n} \\ A_{21} & A_{22} & \ldots & A_{2n} \\ \ldots & \ldots & \ldots & \ldots \\ A_{n1} & A_{n2} & \ldots & A_{{nn}} \\ \end{pmatrix} = (A_{{ji}}) = {(A_{{ij}})}^{T} A ∗ = ⎝ ⎛ A 11 A 21 … A n 1 A 12 A 22 … A n 2 … … … … A 1 n A 2 n … A nn ⎠ ⎞ = ( A ji ) = ( A ij ) T
D n = ∣ 1 1 … 1 x 1 x 2 … x n … … … … x 1 n − 1 x 2 n − 1 … x n n − 1 ∣ = ∏ 1 ≤ j < i ≤ n ( x i − x j ) D_{n} = \begin{vmatrix} 1 & 1 & \ldots & 1 \\ x_{1} & x_{2} & \ldots & x_{n} \\ \ldots & \ldots & \ldots & \ldots \\ x_{1}^{n - 1} & x_{2}^{n - 1} & \ldots & x_{n}^{n - 1} \\ \end{vmatrix} = \prod_{1 \leq j < i \leq n}^{}\,(x_{i} - x_{j}) D n = ∣ ∣ 1 x 1 … x 1 n − 1 1 x 2 … x 2 n − 1 … … … … 1 x n … x n n − 1 ∣ ∣ = ∏ 1 ≤ j < i ≤ n ( x i − x j )
(2) 设A , B A,B A , B 为n n n 阶方阵,则∣ A B ∣ = ∣ A ∣ ∣ B ∣ = ∣ B ∣ ∣ A ∣ = ∣ B A ∣ \left| {AB} \right| = \left| A \right|\left| B \right| = \left| B \right|\left| A \right| = \left| {BA} \right| ∣ A B ∣ = ∣ A ∣ ∣ B ∣ = ∣ B ∣ ∣ A ∣ = ∣ B A ∣ ,但∣ A ± B ∣ = ∣ A ∣ ± ∣ B ∣ \left| A \pm B \right| = \left| A \right| \pm \left| B \right| ∣ A ± B ∣ = ∣ A ∣ ± ∣ B ∣ 不一定成立。
(3) ∣ k A ∣ = k n ∣ A ∣ \left| {kA} \right| = k^{n}\left| A \right| ∣ k A ∣ = k n ∣ A ∣ ,A A A 为n n n 阶方阵。
(4) 设A A A 为n n n 阶方阵,∣ A T ∣ = ∣ A ∣ ; ∣ A − 1 ∣ = ∣ A ∣ − 1 |A^{T}| = |A|;|A^{- 1}| = |A|^{- 1} ∣ A T ∣ = ∣ A ∣ ; ∣ A − 1 ∣ = ∣ A ∣ − 1 (若A A A 可逆),∣ A ∗ ∣ = ∣ A ∣ n − 1 |A^{*}| = |A|^{n - 1} ∣ A ∗ ∣ = ∣ A ∣ n − 1
n ≥ 2 n \geq 2 n ≥ 2
(5) ∣ A O O B ∣ = ∣ A C O B ∣ = ∣ A O C B ∣ = ∣ A ∣ ∣ B ∣ \left| \begin{matrix} & {A\quad O} \\ & {O\quad B} \\ \end{matrix} \right| = \left| \begin{matrix} & {A\quad C} \\ & {O\quad B} \\ \end{matrix} \right| = \left| \begin{matrix} & {A\quad O} \\ & {C\quad B} \\ \end{matrix} \right| =| A||B| ∣ ∣ A O O B ∣ ∣ = ∣ ∣ A C O B ∣ ∣ = ∣ ∣ A O C B ∣ ∣ = ∣ A ∣∣ B ∣
,A , B A,B A , B 为方阵,但∣ O A m × m B n × n O ∣ = ( − 1 ) m n ∣ A ∣ ∣ B ∣ \left| \begin{matrix} {O} & A_{m \times m} \\ B_{n \times n} & { O} \\ \end{matrix} \right| = ({- 1)}^{{mn}}|A||B| ∣ ∣ O B n × n A m × m O ∣ ∣ = ( − 1 ) mn ∣ A ∣∣ B ∣ 。
(6) 范德蒙行列式D n = ∣ 1 1 … 1 x 1 x 2 … x n … … … … x 1 n − 1 x 2 n 1 … x n n − 1 ∣ = ∏ 1 ≤ j < i ≤ n ( x i − x j ) D_{n} = \begin{vmatrix} 1 & 1 & \ldots & 1 \\ x_{1} & x_{2} & \ldots & x_{n} \\ \ldots & \ldots & \ldots & \ldots \\ x_{1}^{n - 1} & x_{2}^{n 1} & \ldots & x_{n}^{n - 1} \\ \end{vmatrix} = \prod_{1 \leq j < i \leq n}^{}\,(x_{i} - x_{j}) D n = ∣ ∣ 1 x 1 … x 1 n − 1 1 x 2 … x 2 n 1 … … … … 1 x n … x n n − 1 ∣ ∣ = ∏ 1 ≤ j < i ≤ n ( x i − x j )
设A A A 是n n n 阶方阵,λ i ( i = 1 , 2 ⋯ , n ) \lambda_{i}(i = 1,2\cdots,n) λ i ( i = 1 , 2 ⋯ , n ) 是A A A 的n n n 个特征值,则
∣ A ∣ = ∏ i = 1 n λ i |A| = \prod_{i = 1}^{n}\lambda_{i} ∣ A ∣ = ∏ i = 1 n λ i
3 矩阵
矩阵:m × n m \times n m × n 个数a i j a_{{ij}} a ij 排成m m m 行n n n 列的表格[ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋯ ⋯ ⋯ ⋯ ⋯ a m 1 a m 2 ⋯ a m n ] \begin{bmatrix} a_{11}\quad a_{12}\quad\cdots\quad a_{1n} \\ a_{21}\quad a_{22}\quad\cdots\quad a_{2n} \\ \quad\cdots\cdots\cdots\cdots\cdots \\ a_{m1}\quad a_{m2}\quad\cdots\quad a_{{mn}} \\ \end{bmatrix} ⎣ ⎡ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋯⋯⋯⋯⋯ a m 1 a m 2 ⋯ a mn ⎦ ⎤ 称为矩阵,简记为A A A ,或者( a i j ) m × n \left( a_{{ij}} \right)_{m \times n} ( a ij ) m × n 。若m = n m = n m = n ,则称A A A 是n n n 阶矩阵或n n n 阶方阵。
3.1 矩阵的属性
3.1.1 单位矩阵和对角矩阵
单位矩阵 ,I ∈ R n × n I \in \mathbb{R}^{n \times n} I ∈ R n × n ,它是一个方阵,对角线的元素是1,其余元素都是0:
I i j = { 1 i = j 0 i ≠ j I_{i j}=\left\{\begin{array}{ll}{1} & {i=j} \\ {0} & {i \neq j}\end{array}\right. I ij = { 1 0 i = j i = j 对于所有A ∈ R m × n A \in \mathbb{R}^ {m \times n} A ∈ R m × n ,有:
I = A = I A I = A = IA
I = A = I A ,在某种意义上,单位矩阵的表示法是不明确的,因为它没有指定I I I 的维数。通常,I I I 的维数是从上下文推断出来的,以便使矩阵乘法成为可能。 例如,在上面的等式中,A I = A AI = A A I = A 中的I是n × n n\times n n × n 矩阵,而A = I A A = IA A = I A 中的I I I 是m × m m\times m m × m 矩阵。
对角矩阵是一种这样的矩阵:对角线之外的元素全为0。对角阵通常表示为:D = d i a g ( d 1 , d 2 , . . . , d n ) D= diag(d_1, d_2, . . . , d_n) D = d ia g ( d 1 , d 2 , ... , d n ) ,其中:
D i j = { d i i = j 0 i ≠ j D_{i j}=\left\{\begin{array}{ll}{d_{i}} & {i=j} \\ {0} & {i \neq j}\end{array}\right. D ij = { d i 0 i = j i = j 很明显:单位矩阵I = d i a g ( 1 , 1 , . . . , 1 ) I = diag(1, 1, . . . , 1) I = d ia g ( 1 , 1 , ... , 1 ) 。
3.1.2 转置
矩阵的转置是指翻转矩阵的行和列。
给定一个矩阵:
A ∈ R m × n A \in \mathbb{R}^ {m \times n} A ∈ R m × n , 它的转置为n × m n \times m n × m 的矩阵A T ∈ R n × m A^T \in \mathbb{R}^ {n \times m} A T ∈ R n × m ,其中的元素为:
( A T ) i j = A j i (A^T)_{ij} = A_{ji} ( A T ) ij = A ji 事实上,我们在描述行向量时已经使用了转置,因为列向量的转置自然是行向量。
转置的以下属性很容易验证:
( A T ) T = A (A^T )^T = A ( A T ) T = A
( A B ) T = B T A T (AB)^T = B^T A^T ( A B ) T = B T A T
( A + B ) T = A T + B T (A + B)^T = A^T + B^T ( A + B ) T = A T + B T
3.1.3 矩阵的逆
方阵A ∈ R n × n A \in \mathbb{R}^{n \times n} A ∈ R n × n 的倒数表示为A − 1 A^{-1} A − 1 ,并且是这样的独特矩阵:
A − 1 A = I = A A − 1 A^{-1}A=I=AA^{-1} A − 1 A = I = A A − 1 请注意,并非所有矩阵都具有逆。 例如,非方形矩阵根据定义没有逆。 然而,对于一些方形矩阵A A A ,可能仍然存在A − 1 A^{-1} A − 1 可能不存在的情况。 特别是,如果A − 1 A^{-1} A − 1 存在,我们说A A A 是可逆 的或非奇异 的,否则就是不可逆 或奇异 的。
为了使方阵A具有逆A − 1 A^{-1} A − 1 ,则A A A 必须是满秩。 我们很快就会发现,除了满秩之外,还有许多其它的充分必要条件。
以下是逆的属性; 假设A , B ∈ R n × n A,B \in \mathbb{R}^{n \times n} A , B ∈ R n × n ,而且是非奇异的:
( A − 1 ) − 1 = A (A^{-1})^{-1} = A ( A − 1 ) − 1 = A
( A B ) − 1 = B − 1 A − 1 (AB)^{-1} = B^{-1}A^{-1} ( A B ) − 1 = B − 1 A − 1
( A − 1 ) T = ( A T ) − 1 (A^{-1})^{T} =(A^{T})^{-1} ( A − 1 ) T = ( A T ) − 1 因此,该矩阵通常表示为A − T A^{-T} A − T 。
作为如何使用逆的示例,考虑线性方程组,A x = b Ax = b A x = b ,其中A ∈ R n × n A \in \mathbb{R}^{n \times n} A ∈ R n × n ,x , b ∈ R x,b\in \mathbb{R} x , b ∈ R , 如果A A A 是非奇异的(即可逆的),那么x = A − 1 b x = A^{-1}b x = A − 1 b 。
3.1.4 对称矩阵
如果A = A T A = A^T A = A T ,则矩阵A ∈ R n × n A \in \mathbb{R}^ {n \times n} A ∈ R n × n 是对称矩阵。 如果A = − A T A = - A^T A = − A T ,它是反对称的。 很容易证明,对于任何矩阵A ∈ R n × n A \in \mathbb{R}^ {n \times n} A ∈ R n × n ,矩阵A + A T A + A^ T A + A T 是对称的,矩阵A − A T A -A^T A − A T 是反对称的。 由此得出,任何方矩阵A ∈ R n × n A \in \mathbb{R}^ {n \times n} A ∈ R n × n 可以表示为对称矩阵和反对称矩阵的和,所以:
A = 1 2 ( A + A T ) + 1 2 ( A − A T ) A=\frac{1}{2}(A+A^T)+\frac{1}{2}(A-A^T) A = 2 1 ( A + A T ) + 2 1 ( A − A T ) 上面公式的右边的第一个矩阵是对称矩阵,而第二个矩阵是反对称矩阵。 事实证明,对称矩阵在实践中用到很多,它们有很多很好的属性,我们很快就会看到它们。
通常将大小为n n n 的所有对称矩阵的集合表示为S n \mathbb{S}^n S n ,因此A ∈ S n A \in \mathbb{S}^n A ∈ S n 意味着A A A 是对称的n × n n\times n n × n 矩阵;
3.1.5 正交阵
如果 x T y = 0 x^Ty=0 x T y = 0 ,则两个向量x , y ∈ R n x,y\in \mathbb{R}^{n} x , y ∈ R n 是正交 的。如果∥ x ∥ 2 = 1 \|x\|_2=1 ∥ x ∥ 2 = 1 ,则向量x ∈ R n x\in \mathbb{R}^{n} x ∈ R n 被归一化。如果一个方阵U ∈ R n × n U\in \mathbb{R}^{n \times n} U ∈ R n × n 的所有列彼此正交并被归一化(这些列然后被称为正交),则方阵U U U 是正交阵(注意在讨论向量时的意义不一样)。
它可以从正交性和正态性的定义中得出:
U T U = I = U U T U^ TU = I = U U^T U T U = I = U U T
换句话说,正交矩阵的逆是其转置。 注意,如果U U U 不是方阵 :即,U ∈ R m × n U\in \mathbb{R}^{m \times n} U ∈ R m × n ,n < m n <m n < m ,但其列仍然是正交的,则U T U = I U^TU = I U T U = I ,但是U U T ≠ I UU^T \neq I U U T = I 。我们通常只使用术语"正交"来描述先前的情况 ,其中U U U 是方阵。
正交矩阵的另一个好的特性是在具有正交矩阵的向量上操作不会改变其欧几里德范数,即:
∥ U x ∥ 2 = ∥ x ∥ 2 \|U x\|_{2}=\|x\|_{2} ∥ Ux ∥ 2 = ∥ x ∥ 2 对于任何 x ∈ R x\in \mathbb{R} x ∈ R , U ∈ R n U\in \mathbb{R}^{n} U ∈ R n 是正交的。
3.1.6 矩阵的迹
方矩阵A ∈ R n × n A \in \mathbb{R}^ {n \times n} A ∈ R n × n 的迹,表示为tr ( A ) \operatorname{tr} (A) tr ( A ) (或者只是tr A \operatorname{tr} A tr A ,如果括号显然是隐含的),是矩阵中对角元素的总和:
tr A = ∑ i = 1 n A i i \operatorname{tr} A=\sum_{i=1}^{n} A_{i i} tr A = ∑ i = 1 n A ii 迹具有以下属性(如下所示):
对于矩阵A ∈ R n × n A \in \mathbb{R}^ {n \times n} A ∈ R n × n ,则:tr A = tr A T \operatorname{tr}A =\operatorname{tr}A^T tr A = tr A T
对于矩阵A , B ∈ R n × n A,B \in \mathbb{R}^ {n \times n} A , B ∈ R n × n ,则:tr ( A + B ) = tr A + tr B \operatorname{tr}(A + B) = \operatorname{tr}A + \operatorname{tr}B tr ( A + B ) = tr A + tr B
对于矩阵A ∈ R n × n A \in \mathbb{R}^ {n \times n} A ∈ R n × n ,t ∈ R t \in \mathbb{R} t ∈ R ,则:tr ( t A ) = t tr A \operatorname{tr}(tA) = t\operatorname{tr}A tr ( t A ) = t tr A .
对于矩阵 A A A , B B B ,A B AB A B 为方阵, 则:tr A B = tr B A \operatorname{tr}AB = \operatorname{tr}BA tr A B = tr B A
对于矩阵 A A A , B B B , C C C , A B C ABC A BC 为方阵, 则:tr A B C = tr B C A = tr C A B \operatorname{tr}ABC = \operatorname{tr}BCA=\operatorname{tr}CAB tr A BC = tr BC A = tr C A B , 同理,更多矩阵的积也是有这个性质。
作为如何证明这些属性的示例,我们将考虑上面给出的第四个属性。 假设A ∈ R m × n A \in \mathbb{R}^ {m \times n} A ∈ R m × n 和B ∈ R n × m B \in \mathbb{R}^ {n \times m} B ∈ R n × m (因此A B ∈ R m × m AB \in \mathbb{R}^ {m \times m} A B ∈ R m × m 是方阵)。 观察到B A ∈ R n × n BA \in \mathbb{R}^ {n \times n} B A ∈ R n × n 也是一个方阵,因此对它们进行迹的运算是有意义的。 要证明tr A B = tr B A \operatorname{tr}AB = \operatorname{tr}BA tr A B = tr B A ,请注意:
tr A B = ∑ i = 1 m ( A B ) i i = ∑ i = 1 m ( ∑ j = 1 n A i j B j i ) = ∑ i = 1 m ∑ j = 1 n A i j B j i = ∑ j = 1 n ∑ i = 1 m B j i A i j = ∑ j = 1 n ( ∑ i = 1 m B j i A i j ) = ∑ j = 1 n ( B A ) j j = tr B A \begin{aligned} \operatorname{tr} A B &=\sum_{i=1}^{m}(A B)_{i i}=\sum_{i=1}^{m}\left(\sum_{j=1}^{n} A_{i j} B_{j i}\right) \\ &=\sum_{i=1}^{m} \sum_{j=1}^{n} A_{i j} B_{j i}=\sum_{j=1}^{n} \sum_{i=1}^{m} B_{j i} A_{i j} \\ &=\sum_{j=1}^{n}\left(\sum_{i=1}^{m} B_{j i} A_{i j}\right)=\sum_{j=1}^{n}(B A)_{j j}=\operatorname{tr} B A \end{aligned} tr A B = i = 1 ∑ m ( A B ) ii = i = 1 ∑ m ( j = 1 ∑ n A ij B ji ) = i = 1 ∑ m j = 1 ∑ n A ij B ji = j = 1 ∑ n i = 1 ∑ m B ji A ij = j = 1 ∑ n ( i = 1 ∑ m B ji A ij ) = j = 1 ∑ n ( B A ) jj = tr B A
这里,第一个和最后两个等式使用迹运算符和矩阵乘法的定义,重点在第四个等式,使用标量乘法的可交换性来反转每个乘积中的项的顺序,以及标量加法的可交换性和相关性,以便重新排列求和的顺序。
3.1.7 矩阵的范数
向量的范数∥ x ∥ \|x\| ∥ x ∥ 是非正式度量的向量的“长度” 。 例如,我们有常用的欧几里德或ℓ 2 \ell_{2} ℓ 2 范数,
∥ x ∥ 2 = ∑ i = 1 n x i 2 \|x\|_{2}=\sqrt{\sum_{i=1}^{n} x_{i}^{2}} ∥ x ∥ 2 = ∑ i = 1 n x i 2 注意:∥ x ∥ 2 2 = x T x \|x\|_{2}^{2}=x^{T} x ∥ x ∥ 2 2 = x T x
更正式地,范数是满足4个属性的函数(f : R n → R f : \mathbb{R}^{n} \rightarrow \mathbb{R} f : R n → R ):
对于所有的 x ∈ R n x \in \mathbb{R}^ {n} x ∈ R n , f ( x ) ≥ 0 f(x) \geq 0 f ( x ) ≥ 0 (非负).
当且仅当x = 0 x = 0 x = 0 时,f ( x ) = 0 f(x) = 0 f ( x ) = 0 (明确性).
对于所有x ∈ R n x \in \mathbb{R}^ {n} x ∈ R n ,t ∈ R t\in \mathbb{R} t ∈ R ,则 f ( t x ) = ∣ t ∣ f ( x ) f(tx) = \left| t \right|f(x) f ( t x ) = ∣ t ∣ f ( x ) (正齐次性).
对于所有 x , y ∈ R n x,y \in \mathbb{R}^ {n} x , y ∈ R n , f ( x + y ) ≤ f ( x ) + f ( y ) f(x + y) \leq f(x) + f(y) f ( x + y ) ≤ f ( x ) + f ( y ) (三角不等式)
其他范数的例子是ℓ 1 \ell_1 ℓ 1 范数:
∥ x ∥ 1 = ∑ i = 1 n ∣ x i ∣ \|x\|_{1}=\sum_{i=1}^{n}\left|x_{i}\right| ∥ x ∥ 1 = ∑ i = 1 n ∣ x i ∣ 和ℓ ∞ \ell_{\infty } ℓ ∞ 范数:
∣ x ∥ ∞ = max i ∣ x i ∣ |x\|_{\infty}=\max _{i}\left|x_{i}\right|
∣ x ∥ ∞ = max i ∣ x i ∣ 上,到目前为止所提出的所有三个范数都是ℓ p \ell_p ℓ p 范数族的例子,它们由实数p ≥ 1 p \geq 1 p ≥ 1 参数化,并定义为:
∥ p = ( ∑ i = 1 n ∣ x i ∣ p ) 1 / p \|_{p}=\left(\sum_{i=1}^{n}\left|x_{i}\right|^{p}\right)^{1 / p}
∥ p = ( ∑ i = 1 n ∣ x i ∣ p ) 1/ p
也可以为矩阵定义范数,例如Frobenius 范数:
∥ A ∥ F = ∑ i = 1 m ∑ j = 1 n A i j 2 = tr ( A T A ) \|A\|_{F}=\sqrt{\sum_{i=1}^{m} \sum_{j=1}^{n} A_{i j}^{2}}=\sqrt{\operatorname{tr}\left(A^{T} A\right)} ∥ A ∥ F = ∑ i = 1 m ∑ j = 1 n A ij 2 = tr ( A T A )
3.2 矩阵的线性运算
3.2.1 矩阵的加法
设A = ( a i j ) , B = ( b i j ) A = (a_{{ij}}),B = (b_{{ij}}) A = ( a ij ) , B = ( b ij ) 是两个m × n m \times n m × n 矩阵,则m × n m \times n m × n 矩阵( C = c i j ) = a i j + b i j (C = c_{{ij}}) = a_{{ij}} + b_{{ij}} ( C = c ij ) = a ij + b ij 称为矩阵A A A 与B B B 的和,记为A + B = C A + B = C A + B = C 。
3.2.2 矩阵的数乘
设A = ( a i j ) A = (a_{{ij}}) A = ( a ij ) 是m × n m \times n m × n 矩阵,k k k 是一个常数,则m × n m \times n m × n 矩阵( k a i j ) (ka_{{ij}}) ( k a ij ) 称为数k k k 与矩阵A A A 的数乘,记为k A {kA} k A 。
3.2.3 矩阵的乘法
设A = ( a i j ) A = (a_{{ij}}) A = ( a ij ) 是m × n m \times n m × n 矩阵,B = ( b i j ) B = (b_{{ij}}) B = ( b ij ) 是n × s n \times s n × s 矩阵,那么m × s m \times s m × s 矩阵C = ( c i j ) C = (c_{{ij}}) C = ( c ij ) ,其中c i j = a i 1 b 1 j + a i 2 b 2 j + ⋯ + a i n b n j = ∑ k = 1 n a i k b k j c_{{ij}} = a_{i1}b_{1j} + a_{i2}b_{2j} + \cdots + a_{{in}}b_{{nj}} = \sum_{k =1}^{n}{a_{{ik}}b_{{kj}}} c ij = a i 1 b 1 j + a i 2 b 2 j + ⋯ + a in b nj = ∑ k = 1 n a ik b kj 称为A B {AB} A B 的乘积,记为C = A B C = AB C = A B 。
3.2.4 ** A T \mathbf{A}^{\mathbf{T}} A T 、A − 1 \mathbf{A}^{\mathbf{-1}} A − 1 、**A ∗ \mathbf{A}^{\mathbf{*}} A ∗ 三者之间的关系
(1) ( A T ) T = A , ( A B ) T = B T A T , ( k A ) T = k A T , ( A ± B ) T = A T ± B T {(A^{T})}^{T} = A,{(AB)}^{T} = B^{T}A^{T},{(kA)}^{T} = kA^{T},{(A \pm B)}^{T} = A^{T} \pm B^{T} ( A T ) T = A , ( A B ) T = B T A T , ( k A ) T = k A T , ( A ± B ) T = A T ± B T
(2) ( A − 1 ) − 1 = A , ( A B ) − 1 = B − 1 A − 1 , ( k A ) − 1 = 1 k A − 1 , \left( A^{- 1} \right)^{- 1} = A,\left( {AB} \right)^{- 1} = B^{- 1}A^{- 1},\left( {kA} \right)^{- 1} = \frac{1}{k}A^{- 1}, ( A − 1 ) − 1 = A , ( A B ) − 1 = B − 1 A − 1 , ( k A ) − 1 = k 1 A − 1 ,
但 ( A ± B ) − 1 = A − 1 ± B − 1 {(A \pm B)}^{- 1} = A^{- 1} \pm B^{- 1} ( A ± B ) − 1 = A − 1 ± B − 1 不一定成立。
(3) ( A ∗ ) ∗ = ∣ A ∣ n − 2 A ( n ≥ 3 ) \left( A^{*} \right)^{*} = |A|^{n - 2}\ A\ \ (n \geq 3) ( A ∗ ) ∗ = ∣ A ∣ n − 2 A ( n ≥ 3 ) ,( A B ) ∗ = B ∗ A ∗ , \left({AB} \right)^{*} = B^{*}A^{*}, ( A B ) ∗ = B ∗ A ∗ , ( k A ) ∗ = k n − 1 A ∗ ( n ≥ 2 ) \left( {kA} \right)^{*} = k^{n -1}A^{*}{\ \ }\left( n \geq 2 \right) ( k A ) ∗ = k n − 1 A ∗ ( n ≥ 2 )
但( A ± B ) ∗ = A ∗ ± B ∗ \left( A \pm B \right)^{*} = A^{*} \pm B^{*} ( A ± B ) ∗ = A ∗ ± B ∗ 不一定成立。
(4) ( A − 1 ) T = ( A T ) − 1 , ( A − 1 ) ∗ = ( A A ∗ ) − 1 , ( A ∗ ) T = ( A T ) ∗ {(A^{- 1})}^{T} = {(A^{T})}^{- 1},\ \left( A^{- 1} \right)^{*} ={(AA^{*})}^{- 1},{(A^{*})}^{T} = \left( A^{T} \right)^{*} ( A − 1 ) T = ( A T ) − 1 , ( A − 1 ) ∗ = ( A A ∗ ) − 1 , ( A ∗ ) T = ( A T ) ∗
3.2.5 有关 A ∗ \mathbf{A}^{\mathbf{*}} A ∗ 的结论
(1) A A ∗ = A ∗ A = ∣ A ∣ E AA^{*} = A^{*}A = |A|E A A ∗ = A ∗ A = ∣ A ∣ E
(2) ∣ A ∗ ∣ = ∣ A ∣ n − 1 ( n ≥ 2 ) , ( k A ) ∗ = k n − 1 A ∗ , ( A ∗ ) ∗ = ∣ A ∣ n − 2 A ( n ≥ 3 ) |A^{*}| = |A|^{n - 1}\ (n \geq 2),\ \ \ \ {(kA)}^{*} = k^{n -1}A^{*},{{\ \ }\left( A^{*} \right)}^{*} = |A|^{n - 2}A(n \geq 3) ∣ A ∗ ∣ = ∣ A ∣ n − 1 ( n ≥ 2 ) , ( k A ) ∗ = k n − 1 A ∗ , ( A ∗ ) ∗ = ∣ A ∣ n − 2 A ( n ≥ 3 )
(3) 若A A A 可逆,则A ∗ = ∣ A ∣ A − 1 , ( A ∗ ) ∗ = 1 ∣ A ∣ A A^{*} = |A|A^{- 1},{(A^{*})}^{*} = \frac{1}{|A|}A A ∗ = ∣ A ∣ A − 1 , ( A ∗ ) ∗ = ∣ A ∣ 1 A
(4) 若A A A 为n n n 阶方阵,则:
r ( A ∗ ) = { n , r ( A ) = n 1 , r ( A ) = n − 1 0 , r ( A ) < n − 1 r(A^*)=\begin{cases}n,\quad r(A)=n\\ 1,\quad r(A)=n-1\\ 0,\quad r(A)<n-1\end{cases} r ( A ∗ ) = ⎩ ⎨ ⎧ n , r ( A ) = n 1 , r ( A ) = n − 1 0 , r ( A ) < n − 1
3.2.6 有关 A − 1 \mathbf{A}^{\mathbf{- 1}} A − 1 的结论
A A A 可逆⇔ A B = E ; ⇔ ∣ A ∣ ≠ 0 ; ⇔ r ( A ) = n ; \Leftrightarrow AB = E; \Leftrightarrow |A| \neq 0; \Leftrightarrow r(A) = n; ⇔ A B = E ; ⇔ ∣ A ∣ = 0 ; ⇔ r ( A ) = n ;
⇔ A \Leftrightarrow A ⇔ A 可以表示为初等矩阵的乘积;⇔ A ; ⇔ A x = 0 \Leftrightarrow A;\Leftrightarrow Ax = 0 ⇔ A ; ⇔ A x = 0 。
3.2.7 有关矩阵秩的结论
(1) 秩r ( A ) r(A) r ( A ) =行秩=列秩;
(2) r ( A m × n ) ≤ min ( m , n ) ; r(A_{m \times n}) \leq \min(m,n); r ( A m × n ) ≤ min ( m , n ) ;
(3) A ≠ 0 ⇒ r ( A ) ≥ 1 A \neq 0 \Rightarrow r(A) \geq 1 A = 0 ⇒ r ( A ) ≥ 1 ;
(4) r ( A ± B ) ≤ r ( A ) + r ( B ) ; r(A \pm B) \leq r(A) + r(B); r ( A ± B ) ≤ r ( A ) + r ( B ) ;
(5) 初等变换不改变矩阵的秩
(6) r ( A ) + r ( B ) − n ≤ r ( A B ) ≤ min ( r ( A ) , r ( B ) ) , r(A) + r(B) - n \leq r(AB) \leq \min(r(A),r(B)), r ( A ) + r ( B ) − n ≤ r ( A B ) ≤ min ( r ( A ) , r ( B )) , 特别若A B = O AB = O A B = O
则:r ( A ) + r ( B ) ≤ n r(A) + r(B) \leq n r ( A ) + r ( B ) ≤ n
(7) 若A − 1 A^{- 1} A − 1 存在⇒ r ( A B ) = r ( B ) ; \Rightarrow r(AB) = r(B); ⇒ r ( A B ) = r ( B ) ; 若B − 1 B^{- 1} B − 1 存在
⇒ r ( A B ) = r ( A ) ; \Rightarrow r(AB) = r(A); ⇒ r ( A B ) = r ( A ) ;
若r ( A m × n ) = n ⇒ r ( A B ) = r ( B ) ; r(A_{m \times n}) = n \Rightarrow r(AB) = r(B); r ( A m × n ) = n ⇒ r ( A B ) = r ( B ) ; 若r ( A m × s ) = n ⇒ r ( A B ) = r ( A ) r(A_{m \times s}) = n\Rightarrow r(AB) = r\left( A \right) r ( A m × s ) = n ⇒ r ( A B ) = r ( A ) 。
(8) r ( A m × s ) = n ⇔ A x = 0 r(A_{m \times s}) = n \Leftrightarrow Ax = 0 r ( A m × s ) = n ⇔ A x = 0 只有零解
3.2.8 分块求逆公式
( A O O B ) − 1 = ( A − 1 O O B − 1 ) \begin{pmatrix} A & O \\ O & B \\ \end{pmatrix}^{- 1} = \begin{pmatrix} A^{-1} & O \\ O & B^{- 1} \\ \end{pmatrix} ( A O O B ) − 1 = ( A − 1 O O B − 1 ) ; ( A C O B ) − 1 = ( A − 1 − A − 1 C B − 1 O B − 1 ) \begin{pmatrix} A & C \\ O & B \\\end{pmatrix}^{- 1} = \begin{pmatrix} A^{- 1}& - A^{- 1}CB^{- 1} \\ O & B^{- 1} \\ \end{pmatrix} ( A O C B ) − 1 = ( A − 1 O − A − 1 C B − 1 B − 1 ) ;
( A O C B ) − 1 = ( A − 1 O − B − 1 C A − 1 B − 1 ) \begin{pmatrix} A & O \\ C & B \\ \end{pmatrix}^{- 1} = \begin{pmatrix} A^{- 1}&{O} \\ - B^{- 1}CA^{- 1} & B^{- 1} \\\end{pmatrix} ( A C O B ) − 1 = ( A − 1 − B − 1 C A − 1 O B − 1 ) ; ( O A B O ) − 1 = ( O B − 1 A − 1 O ) \begin{pmatrix} O & A \\ B & O \\ \end{pmatrix}^{- 1} =\begin{pmatrix} O & B^{- 1} \\ A^{- 1} & O \\ \end{pmatrix} ( O B A O ) − 1 = ( O A − 1 B − 1 O )
这里A A A ,B B B 均为可逆方阵。
3.3 矩阵微积分
虽然前面章节中的主题通常包含在线性代数的标准课程中,但似乎很少涉及(我们将广泛使用)的一个主题是微积分扩展到向量设置展。尽管我们使用的所有实际微积分都是相对微不足道的,但是符号通常会使事情看起来比实际困难得多。 在本节中,我们将介绍矩阵微积分的一些基本定义,并提供一些示例。
3.3.1 梯度
假设f : R m × n → R f: \mathbb{R}^{m \times n} \rightarrow \mathbb{R} f : R m × n → R 是将维度为m × n m \times n m × n 的矩阵A ∈ R m × n A\in \mathbb{R}^{m \times n} A ∈ R m × n 作为输入并返回实数值的函数。 然后f f f 的梯度(相对于A ∈ R m × n A\in \mathbb{R}^{m \times n} A ∈ R m × n )是偏导数矩阵,定义如下:
∇ A f ( A ) ∈ R m × n = [ ∂ f ( A ) ∂ A 11 ∂ f ( A ) ∂ A 12 ⋯ ∂ f ( A ) ∂ A 1 n ∂ f ( A ) ∂ A 21 ∂ f ( A ) ∂ A 22 ⋯ ∂ f ( A ) ∂ A 2 n ⋮ ⋮ ⋱ ⋮ ∂ f ( A ) ∂ A m 1 ∂ f ( A ) ∂ A m 2 ⋯ ∂ f ( A ) ∂ A m n ] \nabla_{A} f(A) \in \mathbb{R}^{m \times n}=\left[\begin{array}{cccc}{\frac{\partial f(A)}{\partial A_{11}}} & {\frac{\partial f(A)}{\partial A_{12}}} & {\cdots} & {\frac{\partial f(A)}{\partial A_{1n}}} \\ {\frac{\partial f(A)}{\partial A_{21}}} & {\frac{\partial f(A)}{\partial A_{22}}} & {\cdots} & {\frac{\partial f(A)}{\partial A_{2 n}}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {\frac{\partial f(A)}{\partial A_{m 1}}} & {\frac{\partial f(A)}{\partial A_{m 2}}} & {\cdots} & {\frac{\partial f(A)}{\partial A_{m n}}}\end{array}\right] ∇ A f ( A ) ∈ R m × n = ⎣ ⎡ ∂ A 11 ∂ f ( A ) ∂ A 21 ∂ f ( A ) ⋮ ∂ A m 1 ∂ f ( A ) ∂ A 12 ∂ f ( A ) ∂ A 22 ∂ f ( A ) ⋮ ∂ A m 2 ∂ f ( A ) ⋯ ⋯ ⋱ ⋯ ∂ A 1 n ∂ f ( A ) ∂ A 2 n ∂ f ( A ) ⋮ ∂ A mn ∂ f ( A ) ⎦ ⎤ 即,m × n m \times n m × n 矩阵:
( ∇ A f ( A ) ) i j = ∂ f ( A ) ∂ A i j \left(\nabla_{A} f(A)\right)_{i j}=\frac{\partial f(A)}{\partial A_{i j}}
( ∇ A f ( A ) ) ij = ∂ A ij ∂ f ( A ) 意,∇ A f ( A ) \nabla_{A} f(A) ∇ A f ( A ) 的维度始终与A A A 的维度相同。特殊情况,如果A A A 只是向量A ∈ R n A\in \mathbb{R}^{n} A ∈ R n ,则
b l a x f ( x ) = [ ∂ f ( x ) ∂ x 1 ∂ f ( x ) ∂ x 2 ⋮ ∂ f ( x ) ∂ x n ] bla_{x} f(x)=\left[\begin{array}{c}{\frac{\partial f(x)}{\partial x_{1}}} \\ {\frac{\partial f(x)}{\partial x_{2}}} \\ {\vdots} \\ {\frac{\partial f(x)}{\partial x_{n}}}\end{array}\right]
b l a x f ( x ) = ⎣ ⎡ ∂ x 1 ∂ f ( x ) ∂ x 2 ∂ f ( x ) ⋮ ∂ x n ∂ f ( x ) ⎦ ⎤ 要记住,只有当函数是实值时,即如果函数返回标量值,才定义函数的梯度。例如,A ∈ R m × n A\in \mathbb{R}^{m \times n} A ∈ R m × n 相对于x x x ,我们不能取A x Ax A x 的梯度,因为这个量是向量值。
它直接从偏导数的等价性质得出:
∇ x ( f ( x ) + g ( x ) ) = ∇ x f ( x ) + ∇ x g ( x ) \nabla_{x}(f(x)+g(x))=\nabla_{x} f(x)+\nabla_{x} g(x) ∇ x ( f ( x ) + g ( x )) = ∇ x f ( x ) + ∇ x g ( x )
对于t ∈ R t \in \mathbb{R} t ∈ R ,∇ x ( t f ( x ) ) = t ∇ x f ( x ) \nabla_{x}(t f(x))=t \nabla_{x} f(x) ∇ x ( t f ( x )) = t ∇ x f ( x )
原则上,梯度是偏导数对多变量函数的自然延伸。然而,在实践中,由于符号的原因,使用梯度有时是很困难的。例如,假设A ∈ R m × n A\in \mathbb{R}^{m \times n} A ∈ R m × n 是一个固定系数矩阵,假设b ∈ R m b\in \mathbb{R}^{m} b ∈ R m 是一个固定系数向量。设f : R m × n → R f: \mathbb{R}^{m \times n} \rightarrow \mathbb{R} f : R m × n → R 为f ( z ) = z T z f(z)=z^Tz f ( z ) = z T z 定义的函数,因此∇ z f ( z ) = 2 z \nabla_{z}f(z)=2z ∇ z f ( z ) = 2 z 。但现在考虑表达式,
∇ f ( A x ) \nabla f(Ax) ∇ f ( A x ) 该表达式应该如何解释? 至少有两种可能性:
1.在第一个解释中,回想起∇ z f ( z ) = 2 z \nabla_{z}f(z)=2z ∇ z f ( z ) = 2 z 。 在这里,我们将∇ f ( A x ) \nabla f(Ax) ∇ f ( A x ) 解释为评估点A x Ax A x 处的梯度,因此:
∇ f ( A x ) = 2 ( A x ) = 2 A x ∈ R m \nabla f(A x)=2(A x)=2 A x \in \mathbb{R}^{m} ∇ f ( A x ) = 2 ( A x ) = 2 A x ∈ R m
2.在第二种解释中,我们将数量f ( A x ) f(Ax) f ( A x ) 视为输入变量x x x 的函数。 更正式地说,设g ( x ) = f ( A x ) g(x) =f(Ax) g ( x ) = f ( A x ) 。 然后在这个解释中:
∇ f ( A x ) = ∇ x g ( x ) ∈ R n \nabla f(A x)=\nabla_{x} g(x) \in \mathbb{R}^{n} ∇ f ( A x ) = ∇ x g ( x ) ∈ R n
在这里,我们可以看到这两种解释确实不同。 一种解释产生m m m 维向量作为结果,而另一种解释产生n n n 维向量作为结果! 我们怎么解决这个问题?
这里,关键是要明确我们要区分的变量。
在第一种情况下,我们将函数f f f 与其参数z z z 进行区分,然后替换参数A x Ax A x 。
在第二种情况下,我们将复合函数g ( x ) = f ( A x ) g(x)=f(Ax) g ( x ) = f ( A x ) 直接与x x x 进行微分。
我们将第一种情况表示为∇ z f ( A x ) \nabla zf(Ax) ∇ z f ( A x ) ,第二种情况表示为∇ x f ( A x ) \nabla xf(Ax) ∇ x f ( A x ) 。
保持符号清晰是非常重要的,以后完成课程作业时候你就会发现。
3.3.2 黑塞矩阵
假设f : R n → R f: \mathbb{R}^{n} \rightarrow \mathbb{R} f : R n → R 是一个函数,它接受R n \mathbb{R}^{n} R n 中的向量并返回实数。那么关于x x x 的黑塞矩阵 (也有翻译作海森矩阵),写做:∇ x 2 f ( A x ) \nabla_x ^2 f(A x) ∇ x 2 f ( A x ) ,或者简单地说,H H H 是n × n n \times n n × n 矩阵的偏导数:
∇ x 2 f ( x ) ∈ R n × n = [ ∂ 2 f ( x ) ∂ x 1 2 ∂ 2 f ( x ) ∂ x 1 ∂ x 2 ⋯ ∂ 2 f ( x ) ∂ x 1 ∂ x n ∂ 2 f ( x ) ∂ x 2 ∂ x 1 ∂ 2 f ( x ) ∂ x 2 2 ⋯ ∂ 2 f ( x ) ∂ x 2 ∂ x n ⋮ ⋮ ⋱ ⋮ ∂ 2 f ( x ) ∂ x n ∂ x 1 ∂ 2 f ( x ) ∂ x n ∂ x 2 ⋯ ∂ 2 f ( x ) ∂ x n 2 ] \nabla_{x}^{2} f(x) \in \mathbb{R}^{n \times n}=\left[\begin{array}{cccc}{\frac{\partial^{2} f(x)}{\partial x_{1}^{2}}} & {\frac{\partial^{2} f(x)}{\partial x_{1} \partial x_{2}}} & {\cdots} & {\frac{\partial^{2} f(x)}{\partial x_{1} \partial x_{n}}} \\ {\frac{\partial^{2} f(x)}{\partial x_{2} \partial x_{1}}} & {\frac{\partial^{2} f(x)}{\partial x_{2}^{2}}} & {\cdots} & {\frac{\partial^{2} f(x)}{\partial x_{2} \partial x_{n}}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {\frac{\partial^{2} f(x)}{\partial x_{n} \partial x_{1}}} & {\frac{\partial^{2} f(x)}{\partial x_{n} \partial x_{2}}} & {\cdots} & {\frac{\partial^{2} f(x)}{\partial x_{n}^{2}}}\end{array}\right] ∇ x 2 f ( x ) ∈ R n × n = ⎣ ⎡ ∂ x 1 2 ∂ 2 f ( x ) ∂ x 2 ∂ x 1 ∂ 2 f ( x ) ⋮ ∂ x n ∂ x 1 ∂ 2 f ( x ) ∂ x 1 ∂ x 2 ∂ 2 f ( x ) ∂ x 2 2 ∂ 2 f ( x ) ⋮ ∂ x n ∂ x 2 ∂ 2 f ( x ) ⋯ ⋯ ⋱ ⋯ ∂ x 1 ∂ x n ∂ 2 f ( x ) ∂ x 2 ∂ x n ∂ 2 f ( x ) ⋮ ∂ x n 2 ∂ 2 f ( x ) ⎦ ⎤ 换句话说,∇ x 2 f ( x ) ∈ R n × n \nabla_{x}^{2} f(x) \in \mathbb{R}^{n \times n} ∇ x 2 f ( x ) ∈ R n × n ,其:
( ∇ x 2 f ( x ) ) i j = ∂ 2 f ( x ) ∂ x i ∂ x j \left(\nabla_{x}^{2} f(x)\right)_{i j}=\frac{\partial^{2} f(x)}{\partial x_{i} \partial x_{j}} ( ∇ x 2 f ( x ) ) ij = ∂ x i ∂ x j ∂ 2 f ( x )
注意:黑塞矩阵通常是对称阵:
∂ 2 f ( x ) ∂ x i ∂ x j = ∂ 2 f ( x ) ∂ x j ∂ x i \frac{\partial^{2} f(x)}{\partial x_{i} \partial x_{j}}=\frac{\partial^{2} f(x)}{\partial x_{j} \partial x_{i}} ∂ x i ∂ x j ∂ 2 f ( x ) = ∂ x j ∂ x i ∂ 2 f ( x )
与梯度相似,只有当f ( x ) f(x) f ( x ) 为实值时才定义黑塞矩阵。
很自然地认为梯度与向量函数的一阶导数的相似,而黑塞矩阵与二阶导数的相似(我们使用的符号也暗示了这种关系)。 这种直觉通常是正确的,但需要记住以下几个注意事项。
首先,对于一个变量f : R → R f: \mathbb{R} \rightarrow \mathbb{R} f : R → R 的实值函数,它的基本定义:二阶导数是一阶导数的导数,即:
∂ 2 f ( x ) ∂ x 2 = ∂ ∂ x ∂ ∂ x f ( x ) \frac{\partial^{2} f(x)}{\partial x^{2}}=\frac{\partial}{\partial x} \frac{\partial}{\partial x} f(x) ∂ x 2 ∂ 2 f ( x ) = ∂ x ∂ ∂ x ∂ f ( x ) 然而,对于向量的函数,函数的梯度是一个向量,我们不能取向量的梯度,即:
n a b l a x ∇ x f ( x ) = ∇ x [ ∂ f ( x ) ∂ x 1 ∂ f ( x ) ∂ x 2 ⋮ ∂ f ( x ) ∂ x n ] nabla_{x} \nabla_{x} f(x)=\nabla_{x}\left[\begin{array}{c}{\frac{\partial f(x)}{\partial x_{1}}} \\ {\frac{\partial f(x)}{\partial x_{2}}} \\ {\vdots} \\ {\frac{\partial f(x)}{\partial x_{n}}}\end{array}\right]
nab l a x ∇ x f ( x ) = ∇ x ⎣ ⎡ ∂ x 1 ∂ f ( x ) ∂ x 2 ∂ f ( x ) ⋮ ∂ x n ∂ f ( x ) ⎦ ⎤
上面这个表达式没有意义。 因此,黑塞矩阵不是梯度的梯度。 然而,下面这种情况却这几乎是正确的:如果我们看一下梯度( ∇ x f ( x ) ) i = ∂ f ( x ) / ∂ x i \left(\nabla_{x} f(x)\right)_{i}=\partial f(x) / \partial x_{i} ( ∇ x f ( x ) ) i = ∂ f ( x ) / ∂ x i 的第i i i 个元素,并取关于于x x x 的梯度我们得到:
∇ x ∂ f ( x ) ∂ x i = [ ∂ 2 f ( x ) ∂ x i ∂ x 1 ∂ 2 f ( x ) ∂ x 2 ∂ x 2 ⋮ ∂ f ( x ) ∂ x i ∂ x n ] \nabla_{x} \frac{\partial f(x)}{\partial x_{i}}=\left[\begin{array}{c}{\frac{\partial^{2} f(x)}{\partial x_{i} \partial x_{1}}} \\ {\frac{\partial^{2} f(x)}{\partial x_{2} \partial x_{2}}} \\ {\vdots} \\ {\frac{\partial f(x)}{\partial x_{i} \partial x_{n}}}\end{array}\right] ∇ x ∂ x i ∂ f ( x ) = ⎣ ⎡ ∂ x i ∂ x 1 ∂ 2 f ( x ) ∂ x 2 ∂ x 2 ∂ 2 f ( x ) ⋮ ∂ x i ∂ x n ∂ f ( x ) ⎦ ⎤
这是黑塞矩阵第i i i 行(列),所以:
∇ x 2 f ( x ) = [ ∇ x ( ∇ x f ( x ) ) 1 ∇ x ( ∇ x f ( x ) ) 2 ⋯ ∇ x ( ∇ x f ( x ) ) n ] \nabla_{x}^{2} f(x)=\left[\nabla_{x}\left(\nabla_{x} f(x)\right)_{1} \quad \nabla_{x}\left(\nabla_{x} f(x)\right)_{2} \quad \cdots \quad \nabla_{x}\left(\nabla_{x} f(x)\right)_{n}\right] ∇ x 2 f ( x ) = [ ∇ x ( ∇ x f ( x ) ) 1 ∇ x ( ∇ x f ( x ) ) 2 ⋯ ∇ x ( ∇ x f ( x ) ) n ] 简单地说:我们可以说由于:∇ x 2 f ( x ) = ∇ x ( ∇ x f ( x ) ) T \nabla_{x}^{2} f(x)=\nabla_{x}\left(\nabla_{x} f(x)\right)^{T} ∇ x 2 f ( x ) = ∇ x ( ∇ x f ( x ) ) T ,只要我们理解,这实际上是取∇ x f ( x ) \nabla_{x} f(x) ∇ x f ( x ) 的每个元素的梯度,而不是整个向量的梯度。
最后,请注意,虽然我们可以对矩阵A ∈ R n A\in \mathbb{R}^{n} A ∈ R n 取梯度,但对于这门课,我们只考虑对向量x ∈ R n x \in \mathbb{R}^{n} x ∈ R n 取黑塞矩阵。
这会方便很多(事实上,我们所做的任何计算都不要求我们找到关于矩阵的黑森方程),因为关于矩阵的黑塞方程就必须对矩阵所有元素求偏导数∂ 2 f ( A ) / ( ∂ A i j ∂ A k ℓ ) \partial^{2} f(A) /\left(\partial A_{i j} \partial A_{k \ell}\right) ∂ 2 f ( A ) / ( ∂ A ij ∂ A k ℓ ) ,将其表示为矩阵相当麻烦。
3.3.3 二次函数和线性函数的梯度和黑塞矩阵
现在让我们尝试确定几个简单函数的梯度和黑塞矩阵。
对于x ∈ R n x \in \mathbb{R}^{n} x ∈ R n , 设f ( x ) = b T x f(x)=b^Tx f ( x ) = b T x 的某些已知向量b ∈ R n b \in \mathbb{R}^{n} b ∈ R n ,则:
f ( x ) = ∑ i = 1 n b i x i f(x)=\sum_{i=1}^{n} b_{i} x_{i} f ( x ) = i = 1 ∑ n b i x i
所以:
∂ f ( x ) ∂ x k = ∂ ∂ x k ∑ i = 1 n b i x i = b k \frac{\partial f(x)}{\partial x_{k}}=\frac{\partial}{\partial x_{k}} \sum_{i=1}^{n} b_{i} x_{i}=b_{k} ∂ x k ∂ f ( x ) = ∂ x k ∂ ∑ i = 1 n b i x i = b k 由此我们可以很容易地看出∇ x b T x = b \nabla_{x} b^{T} x=b ∇ x b T x = b 。 这应该与单变量微积分中的类似情况进行比较,其中∂ / ( ∂ x ) a x = a \partial /(\partial x) a x=a ∂ / ( ∂ x ) a x = a 。
现在考虑A ∈ S n A\in \mathbb{S}^{n} A ∈ S n 的二次函数f ( x ) = x T A x f(x)=x^TAx f ( x ) = x T A x 。 记住这一点:
( x ) = ∑ i = 1 n ∑ j = 1 n A i j x i x j (x)=\sum_{i=1}^{n} \sum_{j=1}^{n} A_{i j} x_{i} x_{j}
( x ) = ∑ i = 1 n ∑ j = 1 n A ij x i x j 取偏导数,我们将分别考虑包括x k x_k x k 和x 2 k x_2^k x 2 k 因子的项:
∂ f ( x ) ∂ x k = ∂ ∂ x k ∑ i = 1 n ∑ j = 1 n A i j x i x j = ∂ ∂ x k [ ∑ i ≠ k ∑ j ≠ k A i j x i x j + ∑ i ≠ k A i k x i x k + ∑ j ≠ k A k j x k x j + A k k x k 2 ] = ∑ i ≠ k A i k x i + ∑ j ≠ k A k j x j + 2 A k k x k = ∑ i = 1 n A i k x i + ∑ j = 1 n A k j x j = 2 ∑ i = 1 n A k i x i \begin{aligned} \frac{\partial f(x)}{\partial x_{k}} &=\frac{\partial}{\partial x_{k}} \sum_{i=1}^{n} \sum_{j=1}^{n} A_{i j} x_{i} x_{j} \\ &=\frac{\partial}{\partial x_{k}}\left[\sum_{i \neq k} \sum_{j \neq k} A_{i j} x_{i} x_{j}+\sum_{i \neq k} A_{i k} x_{i} x_{k}+\sum_{j \neq k} A_{k j} x_{k} x_{j}+A_{k k} x_{k}^{2}\right] \\ &=\sum_{i \neq k} A_{i k} x_{i}+\sum_{j \neq k} A_{k j} x_{j}+2 A_{k k} x_{k} \\ &=\sum_{i=1}^{n} A_{i k} x_{i}+\sum_{j=1}^{n} A_{k j} x_{j}=2 \sum_{i=1}^{n} A_{k i} x_{i} \end{aligned} ∂ x k ∂ f ( x ) = ∂ x k ∂ i = 1 ∑ n j = 1 ∑ n A ij x i x j = ∂ x k ∂ ⎣ ⎡ i = k ∑ j = k ∑ A ij x i x j + i = k ∑ A ik x i x k + j = k ∑ A kj x k x j + A kk x k 2 ⎦ ⎤ = i = k ∑ A ik x i + j = k ∑ A kj x j + 2 A kk x k = i = 1 ∑ n A ik x i + j = 1 ∑ n A kj x j = 2 i = 1 ∑ n A ki x i
最后一个等式,是因为A A A 是对称的(我们可以安全地假设,因为它以二次形式出现)。 注意,∇ x f ( x ) \nabla_{x} f(x) ∇ x f ( x ) 的第k k k 个元素是A A A 和x x x 的第k k k 行的内积。 因此,∇ x x T A x = 2 A x \nabla_{x} x^{T} A x=2 A x ∇ x x T A x = 2 A x 。 同样,这应该提醒你单变量微积分中的类似事实,即∂ / ( ∂ x ) a x 2 = 2 a x \partial /(\partial x) a x^{2}=2 a x ∂ / ( ∂ x ) a x 2 = 2 a x 。
最后,让我们来看看二次函数f ( x ) = x T A x f(x)=x^TAx f ( x ) = x T A x 黑塞矩阵(显然,线性函数b T x b^Tx b T x 的黑塞矩阵为零)。在这种情况下:
∂ 2 f ( x ) ∂ x k ∂ x ℓ = ∂ ∂ x k [ ∂ f ( x ) ∂ x ℓ ] = ∂ ∂ x k [ 2 ∑ i = 1 n A ℓ i x i ] = 2 A ℓ k = 2 A k ℓ \frac{\partial^{2} f(x)}{\partial x_{k} \partial x_{\ell}}=\frac{\partial}{\partial x_{k}}\left[\frac{\partial f(x)}{\partial x_{\ell}}\right]=\frac{\partial}{\partial x_{k}}\left[2 \sum_{i=1}^{n} A_{\ell i} x_{i}\right]=2 A_{\ell k}=2 A_{k \ell} ∂ x k ∂ x ℓ ∂ 2 f ( x ) = ∂ x k ∂ [ ∂ x ℓ ∂ f ( x ) ] = ∂ x k ∂ [ 2 ∑ i = 1 n A ℓ i x i ] = 2 A ℓ k = 2 A k ℓ 因此,应该很清楚∇ x 2 x T A x = 2 A \nabla_{x}^2 x^{T} A x=2 A ∇ x 2 x T A x = 2 A ,这应该是完全可以理解的(同样类似于∂ 2 / ( ∂ x 2 ) a x 2 = 2 a \partial^2 /(\partial x^2) a x^{2}=2a ∂ 2 / ( ∂ x 2 ) a x 2 = 2 a 的单变量事实)。
简要概括起来:
∇ x b T x = b \nabla_{x} b^{T} x=b ∇ x b T x = b
∇ x x T A x = 2 A x \nabla_{x} x^{T} A x=2 A x ∇ x x T A x = 2 A x (如果A A A 是对称阵)
∇ x 2 x T A x = 2 A \nabla_{x}^2 x^{T} A x=2 A ∇ x 2 x T A x = 2 A (如果A A A 是对称阵)
3.3.4 最小二乘法
让我们应用上一节中得到的方程来推导最小二乘方程。假设我们得到矩阵A ∈ R m × n A\in \mathbb{R}^{m \times n} A ∈ R m × n (为了简单起见,我们假设A A A 是满秩)和向量b ∈ R m b\in \mathbb{R}^{m} b ∈ R m ,从而使b ∉ R ( A ) b \notin \mathcal{R}(A) b ∈ / R ( A ) 。在这种情况下,我们将无法找到向量x ∈ R n x\in \mathbb{R}^{n} x ∈ R n ,由于A x = b Ax = b A x = b ,因此我们想要找到一个向量x x x ,使得A x Ax A x 尽可能接近 b b b ,用欧几里德范数的平方∥ A x − b ∥ 2 2 \|A x-b\|_{2}^{2} ∥ A x − b ∥ 2 2 来衡量。
使用公式∥ x ∥ 2 = x T x \|x\|^{2}=x^Tx ∥ x ∥ 2 = x T x ,我们可以得到:
∥ A x − b ∥ 2 2 = ( A x − b ) T ( A x − b ) = x T A T A x − 2 b T A x + b T b \begin{aligned}\|A x-b\|_{2}^{2} &=(A x-b)^{T}(A x-b) \\ &=x^{T} A^{T} A x-2 b^{T} A x+b^{T} b \end{aligned} ∥ A x − b ∥ 2 2 = ( A x − b ) T ( A x − b ) = x T A T A x − 2 b T A x + b T b
根据x x x 的梯度,并利用上一节中推导的性质:
∇ x ( x T A T A x − 2 b T A x + b T b ) = ∇ x x T A T A x − ∇ x 2 b T A x + ∇ x b T b = 2 A T A x − 2 A T b \begin{aligned} \nabla_{x}\left(x^{T} A^{T} A x-2 b^{T} A x+b^{T} b\right) &=\nabla_{x} x^{T} A^{T} A x-\nabla_{x} 2 b^{T} A x+\nabla_{x} b^{T} b \\ &=2 A^{T} A x-2 A^{T} b \end{aligned} ∇ x ( x T A T A x − 2 b T A x + b T b ) = ∇ x x T A T A x − ∇ x 2 b T A x + ∇ x b T b = 2 A T A x − 2 A T b 将最后一个表达式设置为零,然后解出x x x ,得到了正规方程:
= ( A T A ) − 1 A T b = (A^TA)^{-1}A^Tb = ( A T A ) − 1 A T b 我们在课堂上得到的相同。
3.3.5 行列式的梯度
现在让我们考虑一种情况,我们找到一个函数相对于矩阵的梯度,也就是说,对于A ∈ R n × n A\in \mathbb{R}^{n \times n} A ∈ R n × n ,我们要找到∇ A ∣ A ∣ \nabla_{A}|A| ∇ A ∣ A ∣ 。回想一下我们对行列式的讨论:
∣ A ∣ = ∑ i = 1 n ( − 1 ) i + j A i j ∣ A \ i , \ j ∣ ( for any j ∈ 1 , … , n ) |A|=\sum_{i=1}^{n}(-1)^{i+j} A_{i j}\left|A_{\backslash i, \backslash j}\right| \quad(\text { for any } j \in 1, \ldots, n) ∣ A ∣ = ∑ i = 1 n ( − 1 ) i + j A ij ∣ ∣ A \ i , \ j ∣ ∣ ( for any j ∈ 1 , … , n ) 所以:
f r a c ∂ ∂ A k ℓ ∣ A ∣ = ∂ ∂ A k ℓ ∑ i = 1 n ( − 1 ) i + j A i j ∣ A \ i , \ j ∣ = ( − 1 ) k + ℓ ∣ A \ k , \ ℓ ∣ = ( adj ( A ) ) ℓ k frac{\partial}{\partial A_{k \ell}}|A|=\frac{\partial}{\partial A_{k \ell}} \sum_{i=1}^{n}(-1)^{i+j} A_{i j}\left|A_{\backslash i, \backslash j}\right|=(-1)^{k+\ell}\left|A_{\backslash k,\backslash \ell}\right|=(\operatorname{adj}(A))_{\ell k}
f r a c ∂ ∂ A k ℓ ∣ A ∣ = ∂ A k ℓ ∂ ∑ i = 1 n ( − 1 ) i + j A ij ∣ ∣ A \ i , \ j ∣ ∣ = ( − 1 ) k + ℓ ∣ ∣ A \ k , \ ℓ ∣ ∣ = ( adj ( A ) ) ℓ k 里可以知道,它直接从伴随矩阵的性质得出:
b l a A ∣ A ∣ = ( adj ( A ) ) T = ∣ A ∣ A − T bla_{A}|A|=(\operatorname{adj}(A))^{T}=|A| A^{-T}
b l a A ∣ A ∣ = ( adj ( A ) ) T = ∣ A ∣ A − T 来考虑函数f : S + + n → R f : \mathbb{S}_{++}^{n} \rightarrow \mathbb{R} f : S ++ n → R ,f ( A ) = log ∣ A ∣ f(A)=\log |A| f ( A ) = log ∣ A ∣ 。注意,我们必须将f f f 的域限制为正定矩阵,因为这确保了∣ A ∣ > 0 |A|>0 ∣ A ∣ > 0 ,因此∣ A ∣ |A| ∣ A ∣ 的对数是实数。在这种情况下,我们可以使用链式法则(没什么奇怪的,只是单变量演算中的普通链式法则)来看看:
∂ log ∣ A ∣ ∂ A i j = ∂ log ∣ A ∣ ∂ ∣ A ∣ ∂ ∣ A ∣ ∂ A i j = 1 ∣ A ∣ ∂ ∣ A ∣ ∂ A i j {\partial \log |A|}{\partial A_{i j}}=\frac{\partial \log |A|}{\partial|A|} \frac{\partial|A|}{\partial A_{i j}}=\frac{1}{|A|} \frac{\partial|A|}{\partial A_{i j}}
∂ log ∣ A ∣ ∂ A ij = ∂ ∣ A ∣ ∂ l o g ∣ A ∣ ∂ A ij ∂ ∣ A ∣ = ∣ A ∣ 1 ∂ A ij ∂ ∣ A ∣ 明显看出:
∇ A log ∣ A ∣ = 1 ∣ A ∣ ∇ A ∣ A ∣ = A − 1 \nabla_{A} \log |A|=\frac{1}{|A|} \nabla_{A}|A|=A^{-1} ∇ A log ∣ A ∣ = ∣ A ∣ 1 ∇ A ∣ A ∣ = A − 1
我们可以在最后一个表达式中删除转置,因为A A A 是对称的。注意与单值情况的相似性,其中∂ / ( ∂ x ) log x = 1 / x \partial /(\partial x) \log x=1 / x ∂ / ( ∂ x ) log x = 1/ x 。
3.3.6 特征值优化
最后,我们使用矩阵演算以直接导致特征值/特征向量分析的方式求解优化问题。 考虑以下等式约束优化问题:
max x ∈ R n x T A x subject to ∥ x ∥ 2 2 = 1 \max _{x \in \mathbb{R}^{n}} x^{T} A x \quad \text { subject to }\|x\|_{2}^{2}=1 x ∈ R n max x T A x subject to ∥ x ∥ 2 2 = 1
对于对称矩阵A ∈ S n A\in \mathbb{S}^{n} A ∈ S n 。求解等式约束优化问题的标准方法是采用拉格朗日 形式,一种包含等式约束的目标函数,在这种情况下,拉格朗日函数可由以下公式给出:
L ( x , λ ) = x T A x − λ x T x \mathcal{L}(x, \lambda)=x^{T} A x-\lambda x^{T} x L ( x , λ ) = x T A x − λ x T x
其中,λ \lambda λ 被称为与等式约束关联的拉格朗日乘子。可以确定,要使x ∗ x^* x ∗ 成为问题的最佳点,拉格朗日的梯度必须在x ∗ x^* x ∗ 处为零(这不是唯一的条件,但它是必需的)。也就是说,
∇ x L ( x , λ ) = ∇ x ( x T A x − λ x T x ) = 2 A T x − 2 λ x = 0 \nabla_{x} \mathcal{L}(x, \lambda)=\nabla_{x}\left(x^{T} A x-\lambda x^{T} x\right)=2 A^{T} x-2 \lambda x=0 ∇ x L ( x , λ ) = ∇ x ( x T A x − λ x T x ) = 2 A T x − 2 λ x = 0 请注意,这只是线性方程A x = λ x Ax =\lambda x A x = λ x 。 这表明假设x T x = 1 x^T x = 1 x T x = 1 ,可能最大化(或最小化)x T A x x^T Ax x T A x 的唯一点是A A A 的特征向量。
4 向量
4.1 有关向量组的线性表示
(1)α 1 , α 2 , ⋯ , α s \alpha_{1},\alpha_{2},\cdots,\alpha_{s} α 1 , α 2 , ⋯ , α s 线性相关⇔ \Leftrightarrow ⇔ 至少有一个向量可以用其余向量线性表示。
(2)α 1 , α 2 , ⋯ , α s \alpha_{1},\alpha_{2},\cdots,\alpha_{s} α 1 , α 2 , ⋯ , α s 线性无关,α 1 , α 2 , ⋯ , α s \alpha_{1},\alpha_{2},\cdots,\alpha_{s} α 1 , α 2 , ⋯ , α s ,β \beta β 线性相关⇔ β \Leftrightarrow \beta ⇔ β 可以由α 1 , α 2 , ⋯ , α s \alpha_{1},\alpha_{2},\cdots,\alpha_{s} α 1 , α 2 , ⋯ , α s 唯一线性表示。
(3) β \beta β 可以由α 1 , α 2 , ⋯ , α s \alpha_{1},\alpha_{2},\cdots,\alpha_{s} α 1 , α 2 , ⋯ , α s 线性表示
⇔ r ( α 1 , α 2 , ⋯ , α s ) = r ( α 1 , α 2 , ⋯ , α s , β ) \Leftrightarrow r(\alpha_{1},\alpha_{2},\cdots,\alpha_{s}) =r(\alpha_{1},\alpha_{2},\cdots,\alpha_{s},\beta) ⇔ r ( α 1 , α 2 , ⋯ , α s ) = r ( α 1 , α 2 , ⋯ , α s , β ) 。
4.2 有关向量组的线性相关性
(1)部分相关,整体相关;整体无关,部分无关.
(2) ① n n n 个n n n 维向量
α 1 , α 2 ⋯ α n \alpha_{1},\alpha_{2}\cdots\alpha_{n} α 1 , α 2 ⋯ α n 线性无关⇔ ∣ [ α 1 α 2 ⋯ α n ] ∣ ≠ 0 \Leftrightarrow \left|\left\lbrack \alpha_{1}\alpha_{2}\cdots\alpha_{n} \right\rbrack \right| \neq0 ⇔ ∣ [ α 1 α 2 ⋯ α n ] ∣ = 0 , n n n 个n n n 维向量α 1 , α 2 ⋯ α n \alpha_{1},\alpha_{2}\cdots\alpha_{n} α 1 , α 2 ⋯ α n 线性相关
⇔ ∣ [ α 1 , α 2 , ⋯ , α n ] ∣ = 0 \Leftrightarrow |\lbrack\alpha_{1},\alpha_{2},\cdots,\alpha_{n}\rbrack| = 0 ⇔ ∣ [ α 1 , α 2 , ⋯ , α n ] ∣ = 0
。
② n + 1 n + 1 n + 1 个n n n 维向量线性相关。
③ 若α 1 , α 2 ⋯ α S \alpha_{1},\alpha_{2}\cdots\alpha_{S} α 1 , α 2 ⋯ α S 线性无关,则添加分量后仍线性无关;或一组向量线性相关,去掉某些分量后仍线性相关。
4.3 有关向量组的线性表示
(1) α 1 , α 2 , ⋯ , α s \alpha_{1},\alpha_{2},\cdots,\alpha_{s} α 1 , α 2 , ⋯ , α s 线性相关⇔ \Leftrightarrow ⇔ 至少有一个向量可以用其余向量线性表示。
(2) α 1 , α 2 , ⋯ , α s \alpha_{1},\alpha_{2},\cdots,\alpha_{s} α 1 , α 2 , ⋯ , α s 线性无关,α 1 , α 2 , ⋯ , α s \alpha_{1},\alpha_{2},\cdots,\alpha_{s} α 1 , α 2 , ⋯ , α s ,β \beta β 线性相关⇔ β \Leftrightarrow\beta ⇔ β 可以由α 1 , α 2 , ⋯ , α s \alpha_{1},\alpha_{2},\cdots,\alpha_{s} α 1 , α 2 , ⋯ , α s 唯一线性表示。
(3) β \beta β 可以由α 1 , α 2 , ⋯ , α s \alpha_{1},\alpha_{2},\cdots,\alpha_{s} α 1 , α 2 , ⋯ , α s 线性表示
⇔ r ( α 1 , α 2 , ⋯ , α s ) = r ( α 1 , α 2 , ⋯ , α s , β ) \Leftrightarrow r(\alpha_{1},\alpha_{2},\cdots,\alpha_{s}) =r(\alpha_{1},\alpha_{2},\cdots,\alpha_{s},\beta) ⇔ r ( α 1 , α 2 , ⋯ , α s ) = r ( α 1 , α 2 , ⋯ , α s , β )
4.4 向量组的秩与矩阵的秩之间的关系
设r ( A m × n ) = r r(A_{m \times n}) =r r ( A m × n ) = r ,则A A A 的秩r ( A ) r(A) r ( A ) 与A A A 的行列向量组的线性相关性关系为:
(1) 若r ( A m × n ) = r = m r(A_{m \times n}) = r = m r ( A m × n ) = r = m ,则A A A 的行向量组线性无关。
(2) 若r ( A m × n ) = r < m r(A_{m \times n}) = r < m r ( A m × n ) = r < m ,则A A A 的行向量组线性相关。
(3) 若r ( A m × n ) = r = n r(A_{m \times n}) = r = n r ( A m × n ) = r = n ,则A A A 的列向量组线性无关。
(4) 若r ( A m × n ) = r < n r(A_{m \times n}) = r < n r ( A m × n ) = r < n ,则A A A 的列向量组线性相关。
**4.5 **n \mathbf{n} n 维向量空间的基变换公式及过渡矩阵
若α 1 , α 2 , ⋯ , α n \alpha_{1},\alpha_{2},\cdots,\alpha_{n} α 1 , α 2 , ⋯ , α n 与β 1 , β 2 , ⋯ , β n \beta_{1},\beta_{2},\cdots,\beta_{n} β 1 , β 2 , ⋯ , β n 是向量空间V V V 的两组基,则基变换公式为:
( β 1 , β 2 , ⋯ , β n ) = ( α 1 , α 2 , ⋯ , α n ) [ c 11 c 12 ⋯ c 1 n c 21 c 22 ⋯ c 2 n ⋯ ⋯ ⋯ ⋯ c n 1 c n 2 ⋯ c n n ] = ( α 1 , α 2 , ⋯ , α n ) C (\beta_{1},\beta_{2},\cdots,\beta_{n}) = (\alpha_{1},\alpha_{2},\cdots,\alpha_{n})\begin{bmatrix} c_{11}& c_{12}& \cdots & c_{1n} \\ c_{21}& c_{22}&\cdots & c_{2n} \\ \cdots & \cdots & \cdots & \cdots \\ c_{n1}& c_{n2} & \cdots & c_{{nn}} \\\end{bmatrix} = (\alpha_{1},\alpha_{2},\cdots,\alpha_{n})C ( β 1 , β 2 , ⋯ , β n ) = ( α 1 , α 2 , ⋯ , α n ) ⎣ ⎡ c 11 c 21 ⋯ c n 1 c 12 c 22 ⋯ c n 2 ⋯ ⋯ ⋯ ⋯ c 1 n c 2 n ⋯ c nn ⎦ ⎤ = ( α 1 , α 2 , ⋯ , α n ) C
其中C C C 是可逆矩阵,称为由基α 1 , α 2 , ⋯ , α n \alpha_{1},\alpha_{2},\cdots,\alpha_{n} α 1 , α 2 , ⋯ , α n 到基β 1 , β 2 , ⋯ , β n \beta_{1},\beta_{2},\cdots,\beta_{n} β 1 , β 2 , ⋯ , β n 的过渡矩阵。
4.6 坐标变换公式
若向量γ \gamma γ 在基α 1 , α 2 , ⋯ , α n \alpha_{1},\alpha_{2},\cdots,\alpha_{n} α 1 , α 2 , ⋯ , α n 与基β 1 , β 2 , ⋯ , β n \beta_{1},\beta_{2},\cdots,\beta_{n} β 1 , β 2 , ⋯ , β n 的坐标分别是
X = ( x 1 , x 2 , ⋯ , x n ) T X = {(x_{1},x_{2},\cdots,x_{n})}^{T} X = ( x 1 , x 2 , ⋯ , x n ) T ,
Y = ( y 1 , y 2 , ⋯ , y n ) T Y = \left( y_{1},y_{2},\cdots,y_{n} \right)^{T} Y = ( y 1 , y 2 , ⋯ , y n ) T 即: γ = x 1 α 1 + x 2 α 2 + ⋯ + x n α n = y 1 β 1 + y 2 β 2 + ⋯ + y n β n \gamma =x_{1}\alpha_{1} + x_{2}\alpha_{2} + \cdots + x_{n}\alpha_{n} = y_{1}\beta_{1} +y_{2}\beta_{2} + \cdots + y_{n}\beta_{n} γ = x 1 α 1 + x 2 α 2 + ⋯ + x n α n = y 1 β 1 + y 2 β 2 + ⋯ + y n β n ,则向量坐标变换公式为X = C Y X = CY X = C Y 或Y = C − 1 X Y = C^{- 1}X Y = C − 1 X ,其中C C C 是从基α 1 , α 2 , ⋯ , α n \alpha_{1},\alpha_{2},\cdots,\alpha_{n} α 1 , α 2 , ⋯ , α n 到基β 1 , β 2 , ⋯ , β n \beta_{1},\beta_{2},\cdots,\beta_{n} β 1 , β 2 , ⋯ , β n 的过渡矩阵。
4.7 向量的内积(Inner Product)
也可以成为点积(Dot Product)或标量积(Scalar Product)
( α , β ) = a 1 b 1 + a 2 b 2 + ⋯ + a n b n = α T β = β T α (\alpha,\beta) = a_{1}b_{1} + a_{2}b_{2} + \cdots + a_{n}b_{n} = \alpha^{T}\beta = \beta^{T}\alpha ( α , β ) = a 1 b 1 + a 2 b 2 + ⋯ + a n b n = α T β = β T α
4.8 Schmidt 正交化
若α 1 , α 2 , ⋯ , α s \alpha_{1},\alpha_{2},\cdots,\alpha_{s} α 1 , α 2 , ⋯ , α s 线性无关,则可构造β 1 , β 2 , ⋯ , β s \beta_{1},\beta_{2},\cdots,\beta_{s} β 1 , β 2 , ⋯ , β s 使其两两正交,且β i \beta_{i} β i 仅是α 1 , α 2 , ⋯ , α i \alpha_{1},\alpha_{2},\cdots,\alpha_{i} α 1 , α 2 , ⋯ , α i 的线性组合( i = 1 , 2 , ⋯ , n ) (i= 1,2,\cdots,n) ( i = 1 , 2 , ⋯ , n ) ,再把β i \beta_{i} β i 单位化,记γ i = β i ∣ β i ∣ \gamma_{i} =\frac{\beta_{i}}{\left| \beta_{i}\right|} γ i = ∣ β i ∣ β i ,则γ 1 , γ 2 , ⋯ , γ i \gamma_{1},\gamma_{2},\cdots,\gamma_{i} γ 1 , γ 2 , ⋯ , γ i 是规范正交向量组。其中
β 1 = α 1 \beta_{1} = \alpha_{1} β 1 = α 1 , β 2 = α 2 − ( α 2 , β 1 ) ( β 1 , β 1 ) β 1 \beta_{2} = \alpha_{2} -\frac{(\alpha_{2},\beta_{1})}{(\beta_{1},\beta_{1})}\beta_{1} β 2 = α 2 − ( β 1 , β 1 ) ( α 2 , β 1 ) β 1 , β 3 = α 3 − ( α 3 , β 1 ) ( β 1 , β 1 ) β 1 − ( α 3 , β 2 ) ( β 2 , β 2 ) β 2 \beta_{3} =\alpha_{3} - \frac{(\alpha_{3},\beta_{1})}{(\beta_{1},\beta_{1})}\beta_{1} -\frac{(\alpha_{3},\beta_{2})}{(\beta_{2},\beta_{2})}\beta_{2} β 3 = α 3 − ( β 1 , β 1 ) ( α 3 , β 1 ) β 1 − ( β 2 , β 2 ) ( α 3 , β 2 ) β 2 ,
............
β s = α s − ( α s , β 1 ) ( β 1 , β 1 ) β 1 − ( α s , β 2 ) ( β 2 , β 2 ) β 2 − ⋯ − ( α s , β s − 1 ) ( β s − 1 , β s − 1 ) β s − 1 \beta_{s} = \alpha_{s} - \frac{(\alpha_{s},\beta_{1})}{(\beta_{1},\beta_{1})}\beta_{1} - \frac{(\alpha_{s},\beta_{2})}{(\beta_{2},\beta_{2})}\beta_{2} - \cdots - \frac{(\alpha_{s},\beta_{s - 1})}{(\beta_{s - 1},\beta_{s - 1})}\beta_{s - 1} β s = α s − ( β 1 , β 1 ) ( α s , β 1 ) β 1 − ( β 2 , β 2 ) ( α s , β 2 ) β 2 − ⋯ − ( β s − 1 , β s − 1 ) ( α s , β s − 1 ) β s − 1
4.9 正交基及规范正交基
向量空间一组基中的向量如果两两正交,就称为正交基;若正交基中每个向量都是单位向量,就称其为规范正交基。
5 线性方程组
1. 克莱姆法则
线性方程组{ a 11 x 1 + a 12 x 2 + ⋯ + a 1 n x n = b 1 a 21 x 1 + a 22 x 2 + ⋯ + a 2 n x n = b 2 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ a n 1 x 1 + a n 2 x 2 + ⋯ + a n n x n = b n \begin{cases} a_{11}x_{1} + a_{12}x_{2} + \cdots +a_{1n}x_{n} = b_{1} \\ a_{21}x_{1} + a_{22}x_{2} + \cdots + a_{2n}x_{n} =b_{2} \\ \quad\cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots \\ a_{n1}x_{1} + a_{n2}x_{2} + \cdots + a_{{nn}}x_{n} = b_{n} \\ \end{cases} ⎩ ⎨ ⎧ a 11 x 1 + a 12 x 2 + ⋯ + a 1 n x n = b 1 a 21 x 1 + a 22 x 2 + ⋯ + a 2 n x n = b 2 ⋯⋯⋯⋯⋯⋯⋯⋯⋯ a n 1 x 1 + a n 2 x 2 + ⋯ + a nn x n = b n ,如果系数行列式D = ∣ A ∣ ≠ 0 D = \left| A \right| \neq 0 D = ∣ A ∣ = 0 ,则方程组有唯一解,x 1 = D 1 D , x 2 = D 2 D , ⋯ , x n = D n D x_{1} = \frac{D_{1}}{D},x_{2} = \frac{D_{2}}{D},\cdots,x_{n} =\frac{D_{n}}{D} x 1 = D D 1 , x 2 = D D 2 , ⋯ , x n = D D n ,其中D j D_{j} D j 是把D D D 中第j j j 列元素换成方程组右端的常数列所得的行列式。
2. n n n 阶矩阵A A A 可逆⇔ A x = 0 \Leftrightarrow Ax = 0 ⇔ A x = 0 只有零解。⇔ ∀ b , A x = b \Leftrightarrow\forall b,Ax = b ⇔ ∀ b , A x = b 总有唯一解,一般地,r ( A m × n ) = n ⇔ A x = 0 r(A_{m \times n}) = n \Leftrightarrow Ax= 0 r ( A m × n ) = n ⇔ A x = 0 只有零解。
3.非奇次线性方程组有解的充分必要条件,线性方程组解的性质和解的结构
(1) 设A A A 为m × n m \times n m × n 矩阵,若r ( A m × n ) = m r(A_{m \times n}) = m r ( A m × n ) = m ,则对A x = b Ax =b A x = b 而言必有r ( A ) = r ( A ⋮ b ) = m r(A) = r(A \vdots b) = m r ( A ) = r ( A ⋮ b ) = m ,从而A x = b Ax = b A x = b 有解。
(2) 设x 1 , x 2 , ⋯ x s x_{1},x_{2},\cdots x_{s} x 1 , x 2 , ⋯ x s 为A x = b Ax = b A x = b 的解,则k 1 x 1 + k 2 x 2 ⋯ + k s x s k_{1}x_{1} + k_{2}x_{2}\cdots + k_{s}x_{s} k 1 x 1 + k 2 x 2 ⋯ + k s x s 当k 1 + k 2 + ⋯ + k s = 1 k_{1} + k_{2} + \cdots + k_{s} = 1 k 1 + k 2 + ⋯ + k s = 1 时仍为A x = b Ax =b A x = b 的解;但当k 1 + k 2 + ⋯ + k s = 0 k_{1} + k_{2} + \cdots + k_{s} = 0 k 1 + k 2 + ⋯ + k s = 0 时,则为A x = 0 Ax =0 A x = 0 的解。特别x 1 + x 2 2 \frac{x_{1} + x_{2}}{2} 2 x 1 + x 2 为A x = b Ax = b A x = b 的解;2 x 3 − ( x 1 + x 2 ) 2x_{3} - (x_{1} +x_{2}) 2 x 3 − ( x 1 + x 2 ) 为A x = 0 Ax = 0 A x = 0 的解。
(3) 非齐次线性方程组A x = b {Ax} = b A x = b 无解⇔ r ( A ) + 1 = r ( A ‾ ) ⇔ b \Leftrightarrow r(A) + 1 =r(\overline{A}) \Leftrightarrow b ⇔ r ( A ) + 1 = r ( A ) ⇔ b 不能由A A A 的列向量α 1 , α 2 , ⋯ , α n \alpha_{1},\alpha_{2},\cdots,\alpha_{n} α 1 , α 2 , ⋯ , α n 线性表示。
4.奇次线性方程组的基础解系和通解,解空间,非奇次线性方程组的通解
(1) 齐次方程组A x = 0 {Ax} = 0 A x = 0 恒有解(必有零解)。当有非零解时,由于解向量的任意线性组合仍是该齐次方程组的解向量,因此A x = 0 {Ax}= 0 A x = 0 的全体解向量构成一个向量空间,称为该方程组的解空间,解空间的维数是n − r ( A ) n - r(A) n − r ( A ) ,解空间的一组基称为齐次方程组的基础解系。
(2) η 1 , η 2 , ⋯ , η t \eta_{1},\eta_{2},\cdots,\eta_{t} η 1 , η 2 , ⋯ , η t 是A x = 0 {Ax} = 0 A x = 0 的基础解系,即:
η 1 , η 2 , ⋯ , η t \eta_{1},\eta_{2},\cdots,\eta_{t} η 1 , η 2 , ⋯ , η t 是A x = 0 {Ax} = 0 A x = 0 的解;
η 1 , η 2 , ⋯ , η t \eta_{1},\eta_{2},\cdots,\eta_{t} η 1 , η 2 , ⋯ , η t 线性无关;
A x = 0 {Ax} = 0 A x = 0 的任一解都可以由η 1 , η 2 , ⋯ , η t \eta_{1},\eta_{2},\cdots,\eta_{t} η 1 , η 2 , ⋯ , η t 线性表出.
k 1 η 1 + k 2 η 2 + ⋯ + k t η t k_{1}\eta_{1} + k_{2}\eta_{2} + \cdots + k_{t}\eta_{t} k 1 η 1 + k 2 η 2 + ⋯ + k t η t 是A x = 0 {Ax} = 0 A x = 0 的通解,其中k 1 , k 2 , ⋯ , k t k_{1},k_{2},\cdots,k_{t} k 1 , k 2 , ⋯ , k t 是任意常数。
6 矩阵的特征值和特征向量
6.1 矩阵的特征值和特征向量的概念及性质
(1) 设λ \lambda λ 是A A A 的一个特征值,则 k A , a A + b E , A 2 , A m , f ( A ) , A T , A − 1 , A ∗ {kA},{aA} + {bE},A^{2},A^{m},f(A),A^{T},A^{- 1},A^{*} k A , a A + b E , A 2 , A m , f ( A ) , A T , A − 1 , A ∗ 有一个特征值分别为
k λ , a λ + b , λ 2 , λ m , f ( λ ) , λ , λ − 1 , ∣ A ∣ λ , {kλ},{aλ} + b,\lambda^{2},\lambda^{m},f(\lambda),\lambda,\lambda^{- 1},\frac{|A|}{\lambda}, kλ , aλ + b , λ 2 , λ m , f ( λ ) , λ , λ − 1 , λ ∣ A ∣ , 且对应特征向量相同(A T A^{T} A T 例外)。
(2)若λ 1 , λ 2 , ⋯ , λ n \lambda_{1},\lambda_{2},\cdots,\lambda_{n} λ 1 , λ 2 , ⋯ , λ n 为A A A 的n n n 个特征值,则∑ i = 1 n λ i = ∑ i = 1 n a i i , ∏ i = 1 n λ i = ∣ A ∣ \sum_{i= 1}^{n}\lambda_{i} = \sum_{i = 1}^{n}a_{{ii}},\prod_{i = 1}^{n}\lambda_{i}= |A| ∑ i = 1 n λ i = ∑ i = 1 n a ii , ∏ i = 1 n λ i = ∣ A ∣ ,从而∣ A ∣ ≠ 0 ⇔ A |A| \neq 0 \Leftrightarrow A ∣ A ∣ = 0 ⇔ A 没有特征值。
(3)设λ 1 , λ 2 , ⋯ , λ s \lambda_{1},\lambda_{2},\cdots,\lambda_{s} λ 1 , λ 2 , ⋯ , λ s 为A A A 的s s s 个特征值,对应特征向量为α 1 , α 2 , ⋯ , α s \alpha_{1},\alpha_{2},\cdots,\alpha_{s} α 1 , α 2 , ⋯ , α s ,
若: α = k 1 α 1 + k 2 α 2 + ⋯ + k s α s \alpha = k_{1}\alpha_{1} + k_{2}\alpha_{2} + \cdots + k_{s}\alpha_{s} α = k 1 α 1 + k 2 α 2 + ⋯ + k s α s ,
则: A n α = k 1 A n α 1 + k 2 A n α 2 + ⋯ + k s A n α s = k 1 λ 1 n α 1 + k 2 λ 2 n α 2 + ⋯ k s λ s n α s A^{n}\alpha = k_{1}A^{n}\alpha_{1} + k_{2}A^{n}\alpha_{2} + \cdots +k_{s}A^{n}\alpha_{s} = k_{1}\lambda_{1}^{n}\alpha_{1} +k_{2}\lambda_{2}^{n}\alpha_{2} + \cdots k_{s}\lambda_{s}^{n}\alpha_{s} A n α = k 1 A n α 1 + k 2 A n α 2 + ⋯ + k s A n α s = k 1 λ 1 n α 1 + k 2 λ 2 n α 2 + ⋯ k s λ s n α s 。
6.2相似变换、相似矩阵的概念及性质
(1) 若A ∼ B A \sim B A ∼ B ,则
A T ∼ B T , A − 1 ∼ B − 1 , , A ∗ ∼ B ∗ A^{T} \sim B^{T},A^{- 1} \sim B^{- 1},,A^{*} \sim B^{*} A T ∼ B T , A − 1 ∼ B − 1 ,, A ∗ ∼ B ∗
∣ A ∣ = ∣ B ∣ , ∑ i = 1 n A i i = ∑ i = 1 n b i i , r ( A ) = r ( B ) |A| = |B|,\sum_{i = 1}^{n}A_{{ii}} = \sum_{i =1}^{n}b_{{ii}},r(A) = r(B) ∣ A ∣ = ∣ B ∣ , ∑ i = 1 n A ii = ∑ i = 1 n b ii , r ( A ) = r ( B )
∣ λ E − A ∣ = ∣ λ E − B ∣ |\lambda E - A| = |\lambda E - B| ∣ λ E − A ∣ = ∣ λ E − B ∣ ,对∀ λ \forall\lambda ∀ λ 成立
6.3 矩阵可相似对角化的充分必要条件
(1)设A A A 为n n n 阶方阵,则A A A 可对角化⇔ \Leftrightarrow ⇔ 对每个k i k_{i} k i 重根特征值λ i \lambda_{i} λ i ,有n − r ( λ i E − A ) = k i n-r(\lambda_{i}E - A) = k_{i} n − r ( λ i E − A ) = k i
(2) 设A A A 可对角化,则由P − 1 A P = Λ , P^{- 1}{AP} = \Lambda, P − 1 A P = Λ , 有A = P Λ P − 1 A = {PΛ}P^{-1} A = P Λ P − 1 ,从而A n = P Λ n P − 1 A^{n} = P\Lambda^{n}P^{- 1} A n = P Λ n P − 1
(3) 重要结论
若A ∼ B , C ∼ D A \sim B,C \sim D A ∼ B , C ∼ D ,则[ A O O C ] ∼ [ B O O D ] \begin{bmatrix} A & O \\ O & C \\\end{bmatrix} \sim \begin{bmatrix} B & O \\ O & D \\\end{bmatrix} [ A O O C ] ∼ [ B O O D ] .
若A ∼ B A \sim B A ∼ B ,则f ( A ) ∼ f ( B ) , ∣ f ( A ) ∣ ∼ ∣ f ( B ) ∣ f(A) \sim f(B),\left| f(A) \right| \sim \left| f(B)\right| f ( A ) ∼ f ( B ) , ∣ f ( A ) ∣ ∼ ∣ f ( B ) ∣ ,其中f ( A ) f(A) f ( A ) 为关于n n n 阶方阵A A A 的多项式。
若A A A 为可对角化矩阵,则其非零特征值的个数(重根重复计算)=秩(A A A )
6.4 实对称矩阵的特征值、特征向量及相似对角阵
(1)相似矩阵:设A , B A,B A , B 为两个n n n 阶方阵,如果存在一个可逆矩阵P P P ,使得B = P − 1 A P B =P^{- 1}{AP} B = P − 1 A P 成立,则称矩阵A A A 与B B B 相似,记为A ∼ B A \sim B A ∼ B 。
(2)相似矩阵的性质:如果A ∼ B A \sim B A ∼ B 则有:
A T ∼ B T A^{T} \sim B^{T} A T ∼ B T
A − 1 ∼ B − 1 A^{- 1} \sim B^{- 1} A − 1 ∼ B − 1 (若A A A ,B B B 均可逆)
A k ∼ B k A^{k} \sim B^{k} A k ∼ B k (k k k 为正整数)
∣ λ E − A ∣ = ∣ λ E − B ∣ \left| {λE} - A \right| = \left| {λE} - B \right| ∣ λ E − A ∣ = ∣ λ E − B ∣ ,从而A , B A,B A , B
有相同的特征值
∣ A ∣ = ∣ B ∣ \left| A \right| = \left| B \right| ∣ A ∣ = ∣ B ∣ ,从而A , B A,B A , B 同时可逆或者不可逆
秩( A ) = \left( A \right) = ( A ) = 秩( B ) , ∣ λ E − A ∣ = ∣ λ E − B ∣ \left( B \right),\left| {λE} - A \right| =\left| {λE} - B \right| ( B ) , ∣ λ E − A ∣ = ∣ λ E − B ∣ ,A , B A,B A , B 不一定相似
7 二次型
7.1 n \mathbf{n} n 个变量 x 1 , x 2 , ⋯ , x n \mathbf{x}_{\mathbf{1}}\mathbf{,}\mathbf{x}_{\mathbf{2}}\mathbf{,\cdots,}\mathbf{x}_{\mathbf{n}} x 1 , x 2 , ⋯ , x n 的二次齐次函数
f ( x 1 , x 2 , ⋯ , x n ) = ∑ i = 1 n ∑ j = 1 n a i j x i y j f(x_{1},x_{2},\cdots,x_{n}) = \sum_{i = 1}^{n}{\sum_{j =1}^{n}{a_{{ij}}x_{i}y_{j}}} f ( x 1 , x 2 , ⋯ , x n ) = ∑ i = 1 n ∑ j = 1 n a ij x i y j ,其中a i j = a j i ( i , j = 1 , 2 , ⋯ , n ) a_{{ij}} = a_{{ji}}(i,j =1,2,\cdots,n) a ij = a ji ( i , j = 1 , 2 , ⋯ , n ) ,称为n n n 元二次型,简称二次型. 若令x = [ x 1 x 1 ⋮ x n ] , A = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋯ ⋯ ⋯ ⋯ a n 1 a n 2 ⋯ a n n ] x = \ \begin{bmatrix}x_{1} \\ x_{1} \\ \vdots \\ x_{n} \\ \end{bmatrix},A = \begin{bmatrix} a_{11}& a_{12}& \cdots & a_{1n} \\ a_{21}& a_{22}& \cdots & a_{2n} \\ \cdots &\cdots &\cdots &\cdots \\ a_{n1}& a_{n2} & \cdots & a_{{nn}} \\\end{bmatrix} x = ⎣ ⎡ x 1 x 1 ⋮ x n ⎦ ⎤ , A = ⎣ ⎡ a 11 a 21 ⋯ a n 1 a 12 a 22 ⋯ a n 2 ⋯ ⋯ ⋯ ⋯ a 1 n a 2 n ⋯ a nn ⎦ ⎤ ,这二次型f f f 可改写成矩阵向量形式f = x T A x f =x^{T}{Ax} f = x T A x ,其中A A A 称为二次型矩阵。写得清楚些,我们可以看到:
x T A x = ∑ i = 1 n x i ( A x ) i = ∑ i = 1 n x i ( ∑ j = 1 n A i j x j ) = ∑ i = 1 n ∑ j = 1 n A i j x i x j x^{T} A x=\sum_{i=1}^{n} x_{i}(A x)_{i}=\sum_{i=1}^{n} x_{i}\left(\sum_{j=1}^{n} A_{i j} x_{j}\right)=\sum_{i=1}^{n} \sum_{j=1}^{n} A_{i j} x_{i} x_{j} x T A x = i = 1 ∑ n x i ( A x ) i = i = 1 ∑ n x i ( j = 1 ∑ n A ij x j ) = i = 1 ∑ n j = 1 ∑ n A ij x i x j
注意:
x T A x = ( x T A x ) T = x T A T x = x T ( 1 2 A + 1 2 A T ) x x^{T} A x=\left(x^{T} A x\right)^{T}=x^{T} A^{T} x=x^{T}\left(\frac{1}{2} A+\frac{1}{2} A^{T}\right) x x T A x = ( x T A x ) T = x T A T x = x T ( 2 1 A + 2 1 A T ) x 第一个等号的是因为是标量的转置与自身相等,而第二个等号是因为是我们平均两个本身相等的量。 由此,我们可以得出结论,只有A A A 的对称部分有助于形成二次型。 出于这个原因,我们经常隐含地假设以二次型出现的矩阵是对称阵。
我们给出以下定义:
对于所有非零向量x ∈ R n x \in \mathbb{R}^n x ∈ R n ,x T A x > 0 x^TAx>0 x T A x > 0 ,对称阵A ∈ S n A \in \mathbb{S}^n A ∈ S n 为正定 (positive definite,PD )。这通常表示为A ≻ 0 A\succ0 A ≻ 0 (或A > 0 A>0 A > 0 ),并且通常将所有正定矩阵的集合表示为S + + n \mathbb{S}_{++}^n S ++ n 。
对于所有向量x T A x ≥ 0 x^TAx\geq 0 x T A x ≥ 0 ,对称矩阵A ∈ S n A \in \mathbb{S}^n A ∈ S n 是半正定 (positive semidefinite ,PSD )。 这写为(或A ⪰ 0 A \succeq 0 A ⪰ 0 仅A ≥ 0 A≥0 A ≥ 0 ),并且所有半正定矩阵的集合通常表示为S + n \mathbb{S}_+^n S + n 。
同样,对称矩阵A ∈ S n A \in \mathbb{S}^n A ∈ S n 是负定 (negative definite,ND ),如果对于所有非零x ∈ R n x \in \mathbb{R}^n x ∈ R n ,则x T A x < 0 x^TAx <0 x T A x < 0 表示为A ≺ 0 A\prec0 A ≺ 0 (或A < 0 A <0 A < 0 )。
类似地,对称矩阵A ∈ S n A \in \mathbb{S}^n A ∈ S n 是半负定 (negative semidefinite,NSD ),如果对于所有x ∈ R n x \in \mathbb{R}^n x ∈ R n ,则x T A x ≤ 0 x^TAx \leq 0 x T A x ≤ 0 表示为A ⪯ 0 A\preceq 0 A ⪯ 0 (或A ≤ 0 A≤0 A ≤ 0 )。
最后,对称矩阵A ∈ S n A \in \mathbb{S}^n A ∈ S n 是不定 的,如果它既不是正半定也不是负半定,即,如果存在x 1 , x 2 ∈ R n x_1,x_2 \in \mathbb{R}^n x 1 , x 2 ∈ R n ,那么x 1 T A x 1 > 0 x_1^TAx_1>0 x 1 T A x 1 > 0 且x 2 T A x 2 < 0 x_2^TAx_2<0 x 2 T A x 2 < 0 。
很明显,如果A A A 是正定的,那么− A −A − A 是负定的,反之亦然。同样,如果A A A 是半正定的,那么− A −A − A 是是半负定的,反之亦然。如果果A A A 是不定的,那么− A −A − A 是也是不定的。
正定矩阵和负定矩阵的一个重要性质是它们总是满秩,因此是可逆的。为了了解这是为什么,假设某个矩阵A ∈ S n A \in \mathbb{S}^n A ∈ S n 不是满秩。然后,假设A A A 的第j j j 列可以表示为其他n − 1 n-1 n − 1 列的线性组合:
a j = ∑ i ≠ j x i a i a_{j}=\sum_{i \neq j} x_{i} a_{i} a j = ∑ i = j x i a i 对于某些x 1 , ⋯ x j − 1 , x j + 1 , ⋯ , x n ∈ R x_1,\cdots x_{j-1},x_{j + 1} ,\cdots ,x_n\in \mathbb{R} x 1 , ⋯ x j − 1 , x j + 1 , ⋯ , x n ∈ R 。设x j = − 1 x_j = -1 x j = − 1 ,则:
x = ∑ i ≠ j x i a i = 0 x=\sum_{i \neq j} x_{i} a_{i}=0
x = ∑ i = j x i a i = 0 意味着对于某些非零向量x x x ,x T A x = 0 x^T Ax = 0 x T A x = 0 ,因此A A A 必须既不是正定也不是负定。如果A A A 是正定或负定,则必须是满秩。
最后,有一种类型的正定矩阵经常出现,因此值得特别提及。 给定矩阵A ∈ R m × n A \in \mathbb{R}^{m \times n} A ∈ R m × n (不一定是对称或偶数平方),矩阵G = A T A G = A^T A G = A T A (有时称为Gram矩阵 )总是半正定的。 此外,如果m ≥ n m\geq n m ≥ n (同时为了方便起见,我们假设A A A 是满秩),则G = A T A G = A^T A G = A T A 是正定的。
7.2 惯性定理,二次型的标准形和规范形
(1) 惯性定理
对于任一二次型,不论选取怎样的合同变换使它化为仅含平方项的标准型,其正负惯性指数与所选变换无关,这就是所谓的惯性定理。
(2) 标准形
二次型f = ( x 1 , x 2 , ⋯ , x n ) = x T A x f = \left( x_{1},x_{2},\cdots,x_{n} \right) =x^{T}{Ax} f = ( x 1 , x 2 , ⋯ , x n ) = x T A x 经过合同变换x = C y x = {Cy} x = C y 化为f = x T A x = y T C T A C f = x^{T}{Ax} =y^{T}C^{T}{AC} f = x T A x = y T C T A C
y = ∑ i = 1 r d i y i 2 y = \sum_{i = 1}^{r}{d_{i}y_{i}^{2}} y = ∑ i = 1 r d i y i 2 称为 f ( r ≤ n ) f(r \leq n) f ( r ≤ n ) 的标准形。在一般的数域内,二次型的标准形不是唯一的,与所作的合同变换有关,但系数不为零的平方项的个数由r ( A ) r(A) r ( A ) 唯一确定。
(3) 规范形
任一实二次型f f f 都可经过合同变换化为规范形f = z 1 2 + z 2 2 + ⋯ z p 2 − z p + 1 2 − ⋯ − z r 2 f = z_{1}^{2} + z_{2}^{2} + \cdots z_{p}^{2} - z_{p + 1}^{2} - \cdots -z_{r}^{2} f = z 1 2 + z 2 2 + ⋯ z p 2 − z p + 1 2 − ⋯ − z r 2 ,其中r r r 为A A A 的秩,p p p 为正惯性指数,r − p r -p r − p 为负惯性指数,且规范型唯一。
7.3 用正交变换和配方法化二次型为标准形,二次型及其矩阵的正定性
设A A A 正定⇒ k A ( k > 0 ) , A T , A − 1 , A ∗ \Rightarrow {kA}(k > 0),A^{T},A^{- 1},A^{*} ⇒ k A ( k > 0 ) , A T , A − 1 , A ∗ 正定;∣ A ∣ > 0 |A| >0 ∣ A ∣ > 0 ,A A A 可逆;a i i > 0 a_{{ii}} > 0 a ii > 0 ,且∣ A i i ∣ > 0 |A_{{ii}}| > 0 ∣ A ii ∣ > 0
A A A ,B B B 正定⇒ A + B \Rightarrow A +B ⇒ A + B 正定,但A B {AB} A B ,B A {BA} B A 不一定正定
A A A 正定⇔ f ( x ) = x T A x > 0 , ∀ x ≠ 0 \Leftrightarrow f(x) = x^{T}{Ax} > 0,\forall x \neq 0 ⇔ f ( x ) = x T A x > 0 , ∀ x = 0
⇔ A \Leftrightarrow A ⇔ A 的各阶顺序主子式全大于零
⇔ A \Leftrightarrow A ⇔ A 的所有特征值大于零
⇔ A \Leftrightarrow A ⇔ A 的正惯性指数为n n n
⇔ \Leftrightarrow ⇔ 存在可逆阵P P P 使A = P T P A = P^{T}P A = P T P
⇔ \Leftrightarrow ⇔ 存在正交矩阵Q Q Q ,使Q T A Q = Q − 1 A Q = ( λ 1 ⋱ λ n ) , Q^{T}{AQ} = Q^{- 1}{AQ} =\begin{pmatrix} \lambda_{1} & & \\ \begin{matrix} & \\ & \\ \end{matrix} &\ddots & \\ & & \lambda_{n} \\ \end{pmatrix}, Q T A Q = Q − 1 A Q = ⎝ ⎛ λ 1 ⋱ λ n ⎠ ⎞ ,
其中λ i > 0 , i = 1 , 2 , ⋯ , n . \lambda_{i} > 0,i = 1,2,\cdots,n. λ i > 0 , i = 1 , 2 , ⋯ , n . 正定⇒ k A ( k > 0 ) , A T , A − 1 , A ∗ \Rightarrow {kA}(k >0),A^{T},A^{- 1},A^{*} ⇒ k A ( k > 0 ) , A T , A − 1 , A ∗ 正定; ∣ A ∣ > 0 , A |A| > 0,A ∣ A ∣ > 0 , A 可逆;a i i > 0 a_{{ii}} >0 a ii > 0 ,且∣ A i i ∣ > 0 |A_{{ii}}| > 0 ∣ A ii ∣ > 0 。