机器学习基础:线代

282 阅读2分钟

线性代数

1 基本符号

  • ARm×nA \in \mathbb{R}^{m \times n},表示 AA 为由实数组成具有mm行和nn列的矩阵。

  • xRnx \in \mathbb{R}^{ n},表示具有nn个元素的向量。 通常,向量xx将表示列向量: 即,具有nn行和11列的矩阵。 如果我们想要明确地表示行向量: 具有 11 行和nn列的矩阵 - 我们通常写xTx^T(这里xTx^Tx$的转置)。

  • xix_i表示向量xx的第ii个元素

x=[x1x2xn]x=\left[\begin{array}{c}{x_{1}} \\ {x_{2}} \\ {\vdots} \\ {x_{n}}\end{array}\right]
  • 我们使用符号 aija_{ij}(或AijA_{ij},Ai,jA_{i,j}等)来表示第 ii 行和第jj列中的 AA 的元素:
A=[a11a12a1na21a22a2nam1am2amn]A=\left[\begin{array}{cccc}{a_{11}} & {a_{12}} & {\cdots} & {a_{1 n}} \\ {a_{21}} & {a_{22}} & {\cdots} & {a_{2 n}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {a_{m 1}} & {a_{m 2}} & {\cdots} & {a_{m n}}\end{array}\right]
  • 我们用aja^j或者A:,jA_{:,j}表示矩阵AA的第jj列:
A=[a1a2an]A=\left[\begin{array}{llll}{ |} & { |} & {} & { |} \\ {a^{1}} & {a^{2}} & {\cdots} & {a^{n}} \\ { |} & { |} & {} & { |}\end{array}\right]
  • 我们用aiTa^T_i或者Ai,:A_{i,:}表示矩阵AA的第ii行:

    A=[a1Ta2TamT]A=\left[\begin{array}{c}{-a_{1}^{T}-} \\ {-a_{2}^{T}-} \\ {\vdots} \\ {-a_{m}^{T}-}\end{array}\right]

2 行列式

行列式按行(列)展开定理

(1) 设A=(aij)n×nA = ( a_{{ij}} )_{n \times n},则:ai1Aj1+ai2Aj2++ainAjn={A,i=j0,ija_{i1}A_{j1} +a_{i2}A_{j2} + \cdots + a_{{in}}A_{{jn}} = \begin{cases}|A|,i=j\\ 0,i \neq j\end{cases}

a1iA1j+a2iA2j++aniAnj={A,i=j0,ija_{1i}A_{1j} + a_{2i}A_{2j} + \cdots + a_{{ni}}A_{{nj}} = \begin{cases}|A|,i=j\\ 0,i \neq j\end{cases}AA=AA=AE,AA^{*} = A^{*}A = \left| A \right|E,其中:A=(A11A12A1nA21A22A2nAn1An2Ann)=(Aji)=(Aij)TA^{*} = \begin{pmatrix} A_{11} & A_{12} & \ldots & A_{1n} \\ A_{21} & A_{22} & \ldots & A_{2n} \\ \ldots & \ldots & \ldots & \ldots \\ A_{n1} & A_{n2} & \ldots & A_{{nn}} \\ \end{pmatrix} = (A_{{ji}}) = {(A_{{ij}})}^{T}

Dn=111x1x2xnx1n1x2n1xnn1=1j<in(xixj)D_{n} = \begin{vmatrix} 1 & 1 & \ldots & 1 \\ x_{1} & x_{2} & \ldots & x_{n} \\ \ldots & \ldots & \ldots & \ldots \\ x_{1}^{n - 1} & x_{2}^{n - 1} & \ldots & x_{n}^{n - 1} \\ \end{vmatrix} = \prod_{1 \leq j < i \leq n}^{}\,(x_{i} - x_{j})

(2) 设A,BA,Bnn阶方阵,则AB=AB=BA=BA\left| {AB} \right| = \left| A \right|\left| B \right| = \left| B \right|\left| A \right| = \left| {BA} \right|,但A±B=A±B\left| A \pm B \right| = \left| A \right| \pm \left| B \right|不一定成立。

(3) kA=knA\left| {kA} \right| = k^{n}\left| A \right|,AAnn阶方阵。

(4) 设AAnn阶方阵,AT=A;A1=A1|A^{T}| = |A|;|A^{- 1}| = |A|^{- 1}(若AA可逆),A=An1|A^{*}| = |A|^{n - 1}

n2n \geq 2

(5) AOOB=ACOB=AOCB=AB\left| \begin{matrix} & {A\quad O} \\ & {O\quad B} \\ \end{matrix} \right| = \left| \begin{matrix} & {A\quad C} \\ & {O\quad B} \\ \end{matrix} \right| = \left| \begin{matrix} & {A\quad O} \\ & {C\quad B} \\ \end{matrix} \right| =| A||B|A,BA,B为方阵,但OAm×mBn×nO=(1)mnAB\left| \begin{matrix} {O} & A_{m \times m} \\ B_{n \times n} & { O} \\ \end{matrix} \right| = ({- 1)}^{{mn}}|A||B|

(6) 范德蒙行列式Dn=111x1x2xnx1n1x2n1xnn1=1j<in(xixj)D_{n} = \begin{vmatrix} 1 & 1 & \ldots & 1 \\ x_{1} & x_{2} & \ldots & x_{n} \\ \ldots & \ldots & \ldots & \ldots \\ x_{1}^{n - 1} & x_{2}^{n 1} & \ldots & x_{n}^{n - 1} \\ \end{vmatrix} = \prod_{1 \leq j < i \leq n}^{}\,(x_{i} - x_{j})

AAnn阶方阵,λi(i=1,2,n)\lambda_{i}(i = 1,2\cdots,n)AAnn个特征值,则 A=i=1nλi|A| = \prod_{i = 1}^{n}\lambda_{i}

3 矩阵

矩阵:m×nm \times n个数aija_{{ij}}排成mmnn列的表格[a11a12a1na21a22a2nam1am2amn]\begin{bmatrix} a_{11}\quad a_{12}\quad\cdots\quad a_{1n} \\ a_{21}\quad a_{22}\quad\cdots\quad a_{2n} \\ \quad\cdots\cdots\cdots\cdots\cdots \\ a_{m1}\quad a_{m2}\quad\cdots\quad a_{{mn}} \\ \end{bmatrix} 称为矩阵,简记为AA,或者(aij)m×n\left( a_{{ij}} \right)_{m \times n} 。若m=nm = n,则称AAnn阶矩阵或nn阶方阵。

3.1 矩阵的属性

3.1.1 单位矩阵和对角矩阵

单位矩阵,IRn×nI \in \mathbb{R}^{n \times n} ,它是一个方阵,对角线的元素是1,其余元素都是0: Iij={1i=j0ijI_{i j}=\left\{\begin{array}{ll}{1} & {i=j} \\ {0} & {i \neq j}\end{array}\right.对于所有ARm×nA \in \mathbb{R}^ {m \times n},有: I=A=IAI = A = IA ,在某种意义上,单位矩阵的表示法是不明确的,因为它没有指定II的维数。通常,II的维数是从上下文推断出来的,以便使矩阵乘法成为可能。 例如,在上面的等式中,AI=AAI = A中的I是n×nn\times n矩阵,而A=IAA = IA中的IIm×mm\times m矩阵。

对角矩阵是一种这样的矩阵:对角线之外的元素全为0。对角阵通常表示为:D=diag(d1,d2,...,dn)D= diag(d_1, d_2, . . . , d_n),其中: Dij={dii=j0ijD_{i j}=\left\{\begin{array}{ll}{d_{i}} & {i=j} \\ {0} & {i \neq j}\end{array}\right.很明显:单位矩阵I=diag(1,1,...,1) I = diag(1, 1, . . . , 1)

3.1.2 转置

矩阵的转置是指翻转矩阵的行和列。

给定一个矩阵:

ARm×nA \in \mathbb{R}^ {m \times n}, 它的转置为n×mn \times m的矩阵ATRn×mA^T \in \mathbb{R}^ {n \times m} ,其中的元素为: (AT)ij=Aji(A^T)_{ij} = A_{ji}事实上,我们在描述行向量时已经使用了转置,因为列向量的转置自然是行向量。

转置的以下属性很容易验证:

  • (AT)T=A(A^T )^T = A
  • (AB)T=BTAT (AB)^T = B^T A^T
  • (A+B)T=AT+BT(A + B)^T = A^T + B^T

3.1.3 矩阵的逆

方阵ARn×nA \in \mathbb{R}^{n \times n}的倒数表示为A1A^{-1},并且是这样的独特矩阵: A1A=I=AA1A^{-1}A=I=AA^{-1}请注意,并非所有矩阵都具有逆。 例如,非方形矩阵根据定义没有逆。 然而,对于一些方形矩阵AA,可能仍然存在A1A^{-1}可能不存在的情况。 特别是,如果A1A^{-1}存在,我们说AA可逆的或非奇异的,否则就是不可逆奇异的。 为了使方阵A具有逆A1A^{-1},则AA必须是满秩。 我们很快就会发现,除了满秩之外,还有许多其它的充分必要条件。 以下是逆的属性; 假设A,BRn×nA,B \in \mathbb{R}^{n \times n},而且是非奇异的:

  • (A1)1=A(A^{-1})^{-1} = A
  • (AB)1=B1A1(AB)^{-1} = B^{-1}A^{-1}
  • (A1)T=(AT)1(A^{-1})^{T} =(A^{T})^{-1} 因此,该矩阵通常表示为ATA^{-T}。 作为如何使用逆的示例,考虑线性方程组,Ax=bAx = b,其中ARn×nA \in \mathbb{R}^{n \times n}x,bRx,b\in \mathbb{R}, 如果AA是非奇异的(即可逆的),那么x=A1bx = A^{-1}b

3.1.4 对称矩阵

如果A=ATA = A^T,则矩阵ARn×nA \in \mathbb{R}^ {n \times n}是对称矩阵。 如果A=AT A = - A^T,它是反对称的。 很容易证明,对于任何矩阵ARn×nA \in \mathbb{R}^ {n \times n},矩阵A+ATA + A^ T是对称的,矩阵AATA -A^T是反对称的。 由此得出,任何方矩阵ARn×nA \in \mathbb{R}^ {n \times n}可以表示为对称矩阵和反对称矩阵的和,所以: A=12(A+AT)+12(AAT)A=\frac{1}{2}(A+A^T)+\frac{1}{2}(A-A^T)上面公式的右边的第一个矩阵是对称矩阵,而第二个矩阵是反对称矩阵。 事实证明,对称矩阵在实践中用到很多,它们有很多很好的属性,我们很快就会看到它们。 通常将大小为nn的所有对称矩阵的集合表示为Sn\mathbb{S}^n,因此ASnA \in \mathbb{S}^n意味着AA是对称的n×nn\times n矩阵;

3.1.5 正交阵

如果 xTy=0x^Ty=0,则两个向量x,yRnx,y\in \mathbb{R}^{n}正交的。如果x2=1\|x\|_2=1,则向量xRnx\in \mathbb{R}^{n} 被归一化。如果一个方阵URn×nU\in \mathbb{R}^{n \times n}的所有列彼此正交并被归一化(这些列然后被称为正交),则方阵UU是正交阵(注意在讨论向量时的意义不一样)。

它可以从正交性和正态性的定义中得出: UTU=I=UUTU^ TU = I = U U^T

换句话说,正交矩阵的逆是其转置。 注意,如果UU不是方阵 :即,URm×nU\in \mathbb{R}^{m \times n}n<mn <m ,但其列仍然是正交的,则UTU=IU^TU = I,但是UUTIUU^T \neq I。我们通常只使用术语"正交"来描述先前的情况 ,其中UU是方阵。 正交矩阵的另一个好的特性是在具有正交矩阵的向量上操作不会改变其欧几里德范数,即: Ux2=x2\|U x\|_{2}=\|x\|_{2}对于任何 xRx\in \mathbb{R} , URnU\in \mathbb{R}^{n}是正交的。

3.1.6 矩阵的迹

方矩阵ARn×nA \in \mathbb{R}^ {n \times n}的迹,表示为tr(A)\operatorname{tr} (A)(或者只是trA\operatorname{tr} A,如果括号显然是隐含的),是矩阵中对角元素的总和: trA=i=1nAii\operatorname{tr} A=\sum_{i=1}^{n} A_{i i}迹具有以下属性(如下所示):

  • 对于矩阵ARn×nA \in \mathbb{R}^ {n \times n},则:trA=trAT\operatorname{tr}A =\operatorname{tr}A^T

  • 对于矩阵A,BRn×nA,B \in \mathbb{R}^ {n \times n},则:tr(A+B)=trA+trB\operatorname{tr}(A + B) = \operatorname{tr}A + \operatorname{tr}B

  • 对于矩阵ARn×nA \in \mathbb{R}^ {n \times n}tR t \in \mathbb{R},则:tr(tA)=ttrA\operatorname{tr}(tA) = t\operatorname{tr}A.

  • 对于矩阵 AA, BBABAB 为方阵, 则:trAB=trBA\operatorname{tr}AB = \operatorname{tr}BA

  • 对于矩阵 AA, BB, CC, ABCABC为方阵, 则:trABC=trBCA=trCAB\operatorname{tr}ABC = \operatorname{tr}BCA=\operatorname{tr}CAB, 同理,更多矩阵的积也是有这个性质。

作为如何证明这些属性的示例,我们将考虑上面给出的第四个属性。 假设ARm×nA \in \mathbb{R}^ {m \times n}BRn×mB \in \mathbb{R}^ {n \times m}(因此ABRm×mAB \in \mathbb{R}^ {m \times m}是方阵)。 观察到BARn×nBA \in \mathbb{R}^ {n \times n}也是一个方阵,因此对它们进行迹的运算是有意义的。 要证明trAB=trBA\operatorname{tr}AB = \operatorname{tr}BA,请注意:

trAB=i=1m(AB)ii=i=1m(j=1nAijBji)=i=1mj=1nAijBji=j=1ni=1mBjiAij=j=1n(i=1mBjiAij)=j=1n(BA)jj=trBA\begin{aligned} \operatorname{tr} A B &=\sum_{i=1}^{m}(A B)_{i i}=\sum_{i=1}^{m}\left(\sum_{j=1}^{n} A_{i j} B_{j i}\right) \\ &=\sum_{i=1}^{m} \sum_{j=1}^{n} A_{i j} B_{j i}=\sum_{j=1}^{n} \sum_{i=1}^{m} B_{j i} A_{i j} \\ &=\sum_{j=1}^{n}\left(\sum_{i=1}^{m} B_{j i} A_{i j}\right)=\sum_{j=1}^{n}(B A)_{j j}=\operatorname{tr} B A \end{aligned}

这里,第一个和最后两个等式使用迹运算符和矩阵乘法的定义,重点在第四个等式,使用标量乘法的可交换性来反转每个乘积中的项的顺序,以及标量加法的可交换性和相关性,以便重新排列求和的顺序。

3.1.7 矩阵的范数

向量的范数x\|x\|是非正式度量的向量的“长度” 。 例如,我们有常用的欧几里德或2\ell_{2}范数, x2=i=1nxi2\|x\|_{2}=\sqrt{\sum_{i=1}^{n} x_{i}^{2}}注意:x22=xTx\|x\|_{2}^{2}=x^{T} x

更正式地,范数是满足4个属性的函数(f:RnRf : \mathbb{R}^{n} \rightarrow \mathbb{R}):

  1. 对于所有的 xRnx \in \mathbb{R}^ {n}, f(x)0f(x) \geq 0 (非负).
  2. 当且仅当x=0x = 0 时,f(x)=0f(x) = 0 (明确性).
  3. 对于所有xRnx \in \mathbb{R}^ {n},tRt\in \mathbb{R},则 f(tx)=tf(x)f(tx) = \left| t \right|f(x) (正齐次性).
  4. 对于所有 x,yRnx,y \in \mathbb{R}^ {n}, f(x+y)f(x)+f(y)f(x + y) \leq f(x) + f(y) (三角不等式)

其他范数的例子是1\ell_1范数: x1=i=1nxi\|x\|_{1}=\sum_{i=1}^{n}\left|x_{i}\right|\ell_{\infty }范数: x=maxixi|x\|_{\infty}=\max _{i}\left|x_{i}\right| 上,到目前为止所提出的所有三个范数都是p\ell_p范数族的例子,它们由实数p1p \geq 1参数化,并定义为: p=(i=1nxip)1/p\|_{p}=\left(\sum_{i=1}^{n}\left|x_{i}\right|^{p}\right)^{1 / p}

也可以为矩阵定义范数,例如Frobenius范数: AF=i=1mj=1nAij2=tr(ATA)\|A\|_{F}=\sqrt{\sum_{i=1}^{m} \sum_{j=1}^{n} A_{i j}^{2}}=\sqrt{\operatorname{tr}\left(A^{T} A\right)}

3.2 矩阵的线性运算

3.2.1 矩阵的加法

A=(aij),B=(bij)A = (a_{{ij}}),B = (b_{{ij}})是两个m×nm \times n矩阵,则m×nm \times n 矩阵C=cij)=aij+bij(C = c_{{ij}}) = a_{{ij}} + b_{{ij}}称为矩阵AABB的和,记为A+B=CA + B = C

3.2.2 矩阵的数乘

A=(aij)A = (a_{{ij}})m×nm \times n矩阵,kk是一个常数,则m×nm \times n矩阵(kaij)(ka_{{ij}})称为数kk与矩阵AA的数乘,记为kA{kA}

3.2.3 矩阵的乘法

A=(aij)A = (a_{{ij}})m×nm \times n矩阵,B=(bij)B = (b_{{ij}})n×sn \times s矩阵,那么m×sm \times s矩阵C=(cij)C = (c_{{ij}}),其中cij=ai1b1j+ai2b2j++ainbnj=k=1naikbkjc_{{ij}} = a_{i1}b_{1j} + a_{i2}b_{2j} + \cdots + a_{{in}}b_{{nj}} = \sum_{k =1}^{n}{a_{{ik}}b_{{kj}}}称为AB{AB}的乘积,记为C=ABC = AB

3.2.4 ** AT\mathbf{A}^{\mathbf{T}}A1\mathbf{A}^{\mathbf{-1}}、**A\mathbf{A}^{\mathbf{*}}三者之间的关系

(1) (AT)T=A,(AB)T=BTAT,(kA)T=kAT,(A±B)T=AT±BT{(A^{T})}^{T} = A,{(AB)}^{T} = B^{T}A^{T},{(kA)}^{T} = kA^{T},{(A \pm B)}^{T} = A^{T} \pm B^{T}

(2) (A1)1=A,(AB)1=B1A1,(kA)1=1kA1,\left( A^{- 1} \right)^{- 1} = A,\left( {AB} \right)^{- 1} = B^{- 1}A^{- 1},\left( {kA} \right)^{- 1} = \frac{1}{k}A^{- 1},

(A±B)1=A1±B1{(A \pm B)}^{- 1} = A^{- 1} \pm B^{- 1}不一定成立。

(3) (A)=An2 A  (n3)\left( A^{*} \right)^{*} = |A|^{n - 2}\ A\ \ (n \geq 3)(AB)=BA,\left({AB} \right)^{*} = B^{*}A^{*}, (kA)=kn1A  (n2)\left( {kA} \right)^{*} = k^{n -1}A^{*}{\ \ }\left( n \geq 2 \right)

(A±B)=A±B\left( A \pm B \right)^{*} = A^{*} \pm B^{*}不一定成立。

(4) (A1)T=(AT)1, (A1)=(AA)1,(A)T=(AT){(A^{- 1})}^{T} = {(A^{T})}^{- 1},\ \left( A^{- 1} \right)^{*} ={(AA^{*})}^{- 1},{(A^{*})}^{T} = \left( A^{T} \right)^{*}

3.2.5 有关A\mathbf{A}^{\mathbf{*}}的结论

(1) AA=AA=AEAA^{*} = A^{*}A = |A|E

(2) A=An1 (n2),    (kA)=kn1A,  (A)=An2A(n3)|A^{*}| = |A|^{n - 1}\ (n \geq 2),\ \ \ \ {(kA)}^{*} = k^{n -1}A^{*},{{\ \ }\left( A^{*} \right)}^{*} = |A|^{n - 2}A(n \geq 3)

(3) 若AA可逆,则A=AA1,(A)=1AAA^{*} = |A|A^{- 1},{(A^{*})}^{*} = \frac{1}{|A|}A

(4) 若AAnn阶方阵,则:

r(A)={n,r(A)=n1,r(A)=n10,r(A)<n1r(A^*)=\begin{cases}n,\quad r(A)=n\\ 1,\quad r(A)=n-1\\ 0,\quad r(A)<n-1\end{cases}

3.2.6 有关A1\mathbf{A}^{\mathbf{- 1}}的结论

AA可逆AB=E;A0;r(A)=n;\Leftrightarrow AB = E; \Leftrightarrow |A| \neq 0; \Leftrightarrow r(A) = n;

A\Leftrightarrow A可以表示为初等矩阵的乘积;A;Ax=0\Leftrightarrow A;\Leftrightarrow Ax = 0

3.2.7 有关矩阵秩的结论

(1) 秩r(A)r(A)=行秩=列秩;

(2) r(Am×n)min(m,n);r(A_{m \times n}) \leq \min(m,n);

(3) A0r(A)1A \neq 0 \Rightarrow r(A) \geq 1

(4) r(A±B)r(A)+r(B);r(A \pm B) \leq r(A) + r(B);

(5) 初等变换不改变矩阵的秩

(6) r(A)+r(B)nr(AB)min(r(A),r(B)),r(A) + r(B) - n \leq r(AB) \leq \min(r(A),r(B)),特别若AB=OAB = O 则:r(A)+r(B)nr(A) + r(B) \leq n

(7) 若A1A^{- 1}存在r(AB)=r(B);\Rightarrow r(AB) = r(B);B1B^{- 1}存在 r(AB)=r(A);\Rightarrow r(AB) = r(A);

r(Am×n)=nr(AB)=r(B);r(A_{m \times n}) = n \Rightarrow r(AB) = r(B);r(Am×s)=nr(AB)=r(A)r(A_{m \times s}) = n\Rightarrow r(AB) = r\left( A \right)

(8) r(Am×s)=nAx=0r(A_{m \times s}) = n \Leftrightarrow Ax = 0只有零解

3.2.8 分块求逆公式

(AOOB)1=(A1OOB1)\begin{pmatrix} A & O \\ O & B \\ \end{pmatrix}^{- 1} = \begin{pmatrix} A^{-1} & O \\ O & B^{- 1} \\ \end{pmatrix}(ACOB)1=(A1A1CB1OB1)\begin{pmatrix} A & C \\ O & B \\\end{pmatrix}^{- 1} = \begin{pmatrix} A^{- 1}& - A^{- 1}CB^{- 1} \\ O & B^{- 1} \\ \end{pmatrix}

(AOCB)1=(A1OB1CA1B1)\begin{pmatrix} A & O \\ C & B \\ \end{pmatrix}^{- 1} = \begin{pmatrix} A^{- 1}&{O} \\ - B^{- 1}CA^{- 1} & B^{- 1} \\\end{pmatrix}(OABO)1=(OB1A1O)\begin{pmatrix} O & A \\ B & O \\ \end{pmatrix}^{- 1} =\begin{pmatrix} O & B^{- 1} \\ A^{- 1} & O \\ \end{pmatrix}

这里AABB均为可逆方阵。

3.3 矩阵微积分

虽然前面章节中的主题通常包含在线性代数的标准课程中,但似乎很少涉及(我们将广泛使用)的一个主题是微积分扩展到向量设置展。尽管我们使用的所有实际微积分都是相对微不足道的,但是符号通常会使事情看起来比实际困难得多。 在本节中,我们将介绍矩阵微积分的一些基本定义,并提供一些示例。

3.3.1 梯度

假设f:Rm×nRf: \mathbb{R}^{m \times n} \rightarrow \mathbb{R}是将维度为m×nm \times n的矩阵ARm×nA\in \mathbb{R}^{m \times n}作为输入并返回实数值的函数。 然后ff的梯度(相对于ARm×nA\in \mathbb{R}^{m \times n})是偏导数矩阵,定义如下: Af(A)Rm×n=[f(A)A11f(A)A12f(A)A1nf(A)A21f(A)A22f(A)A2nf(A)Am1f(A)Am2f(A)Amn]\nabla_{A} f(A) \in \mathbb{R}^{m \times n}=\left[\begin{array}{cccc}{\frac{\partial f(A)}{\partial A_{11}}} & {\frac{\partial f(A)}{\partial A_{12}}} & {\cdots} & {\frac{\partial f(A)}{\partial A_{1n}}} \\ {\frac{\partial f(A)}{\partial A_{21}}} & {\frac{\partial f(A)}{\partial A_{22}}} & {\cdots} & {\frac{\partial f(A)}{\partial A_{2 n}}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {\frac{\partial f(A)}{\partial A_{m 1}}} & {\frac{\partial f(A)}{\partial A_{m 2}}} & {\cdots} & {\frac{\partial f(A)}{\partial A_{m n}}}\end{array}\right]即,m×nm \times n矩阵: (Af(A))ij=f(A)Aij\left(\nabla_{A} f(A)\right)_{i j}=\frac{\partial f(A)}{\partial A_{i j}} 意,Af(A)\nabla_{A} f(A) 的维度始终与AA的维度相同。特殊情况,如果AA只是向量ARnA\in \mathbb{R}^{n},则 blaxf(x)=[f(x)x1f(x)x2f(x)xn]bla_{x} f(x)=\left[\begin{array}{c}{\frac{\partial f(x)}{\partial x_{1}}} \\ {\frac{\partial f(x)}{\partial x_{2}}} \\ {\vdots} \\ {\frac{\partial f(x)}{\partial x_{n}}}\end{array}\right] 要记住,只有当函数是实值时,即如果函数返回标量值,才定义函数的梯度。例如,ARm×nA\in \mathbb{R}^{m \times n}相对于xx,我们不能取AxAx的梯度,因为这个量是向量值。 它直接从偏导数的等价性质得出:

  • x(f(x)+g(x))=xf(x)+xg(x)\nabla_{x}(f(x)+g(x))=\nabla_{x} f(x)+\nabla_{x} g(x)

  • 对于tRt \in \mathbb{R}x(tf(x))=txf(x)\nabla_{x}(t f(x))=t \nabla_{x} f(x)

原则上,梯度是偏导数对多变量函数的自然延伸。然而,在实践中,由于符号的原因,使用梯度有时是很困难的。例如,假设ARm×nA\in \mathbb{R}^{m \times n}是一个固定系数矩阵,假设bRmb\in \mathbb{R}^{m}是一个固定系数向量。设f:Rm×nRf: \mathbb{R}^{m \times n} \rightarrow \mathbb{R}f(z)=zTzf(z)=z^Tz定义的函数,因此zf(z)=2z\nabla_{z}f(z)=2z。但现在考虑表达式, f(Ax)\nabla f(Ax)该表达式应该如何解释? 至少有两种可能性: 1.在第一个解释中,回想起zf(z)=2z\nabla_{z}f(z)=2z。 在这里,我们将f(Ax)\nabla f(Ax)解释为评估点AxAx处的梯度,因此:

f(Ax)=2(Ax)=2AxRm\nabla f(A x)=2(A x)=2 A x \in \mathbb{R}^{m}

2.在第二种解释中,我们将数量f(Ax)f(Ax)视为输入变量xx的函数。 更正式地说,设g(x)=f(Ax)g(x) =f(Ax)。 然后在这个解释中: f(Ax)=xg(x)Rn\nabla f(A x)=\nabla_{x} g(x) \in \mathbb{R}^{n}

在这里,我们可以看到这两种解释确实不同。 一种解释产生mm维向量作为结果,而另一种解释产生nn维向量作为结果! 我们怎么解决这个问题?

这里,关键是要明确我们要区分的变量。 在第一种情况下,我们将函数ff与其参数zz进行区分,然后替换参数AxAx。 在第二种情况下,我们将复合函数g(x)=f(Ax)g(x)=f(Ax)直接与xx进行微分。

我们将第一种情况表示为zf(Ax)\nabla zf(Ax),第二种情况表示为xf(Ax)\nabla xf(Ax)

保持符号清晰是非常重要的,以后完成课程作业时候你就会发现。

3.3.2 黑塞矩阵

假设f:RnRf: \mathbb{R}^{n} \rightarrow \mathbb{R}是一个函数,它接受Rn\mathbb{R}^{n}中的向量并返回实数。那么关于xx黑塞矩阵(也有翻译作海森矩阵),写做:x2f(Ax)\nabla_x ^2 f(A x),或者简单地说,HHn×nn \times n矩阵的偏导数: x2f(x)Rn×n=[2f(x)x122f(x)x1x22f(x)x1xn2f(x)x2x12f(x)x222f(x)x2xn2f(x)xnx12f(x)xnx22f(x)xn2]\nabla_{x}^{2} f(x) \in \mathbb{R}^{n \times n}=\left[\begin{array}{cccc}{\frac{\partial^{2} f(x)}{\partial x_{1}^{2}}} & {\frac{\partial^{2} f(x)}{\partial x_{1} \partial x_{2}}} & {\cdots} & {\frac{\partial^{2} f(x)}{\partial x_{1} \partial x_{n}}} \\ {\frac{\partial^{2} f(x)}{\partial x_{2} \partial x_{1}}} & {\frac{\partial^{2} f(x)}{\partial x_{2}^{2}}} & {\cdots} & {\frac{\partial^{2} f(x)}{\partial x_{2} \partial x_{n}}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {\frac{\partial^{2} f(x)}{\partial x_{n} \partial x_{1}}} & {\frac{\partial^{2} f(x)}{\partial x_{n} \partial x_{2}}} & {\cdots} & {\frac{\partial^{2} f(x)}{\partial x_{n}^{2}}}\end{array}\right]换句话说,x2f(x)Rn×n\nabla_{x}^{2} f(x) \in \mathbb{R}^{n \times n},其:

(x2f(x))ij=2f(x)xixj\left(\nabla_{x}^{2} f(x)\right)_{i j}=\frac{\partial^{2} f(x)}{\partial x_{i} \partial x_{j}}

注意:黑塞矩阵通常是对称阵:

2f(x)xixj=2f(x)xjxi\frac{\partial^{2} f(x)}{\partial x_{i} \partial x_{j}}=\frac{\partial^{2} f(x)}{\partial x_{j} \partial x_{i}}

与梯度相似,只有当f(x)f(x)为实值时才定义黑塞矩阵。

很自然地认为梯度与向量函数的一阶导数的相似,而黑塞矩阵与二阶导数的相似(我们使用的符号也暗示了这种关系)。 这种直觉通常是正确的,但需要记住以下几个注意事项。 首先,对于一个变量f:RRf: \mathbb{R} \rightarrow \mathbb{R}的实值函数,它的基本定义:二阶导数是一阶导数的导数,即: 2f(x)x2=xxf(x)\frac{\partial^{2} f(x)}{\partial x^{2}}=\frac{\partial}{\partial x} \frac{\partial}{\partial x} f(x)然而,对于向量的函数,函数的梯度是一个向量,我们不能取向量的梯度,即: nablaxxf(x)=x[f(x)x1f(x)x2f(x)xn]nabla_{x} \nabla_{x} f(x)=\nabla_{x}\left[\begin{array}{c}{\frac{\partial f(x)}{\partial x_{1}}} \\ {\frac{\partial f(x)}{\partial x_{2}}} \\ {\vdots} \\ {\frac{\partial f(x)}{\partial x_{n}}}\end{array}\right]

上面这个表达式没有意义。 因此,黑塞矩阵不是梯度的梯度。 然而,下面这种情况却这几乎是正确的:如果我们看一下梯度(xf(x))i=f(x)/xi\left(\nabla_{x} f(x)\right)_{i}=\partial f(x) / \partial x_{i}的第ii个元素,并取关于于xx的梯度我们得到: xf(x)xi=[2f(x)xix12f(x)x2x2f(x)xixn]\nabla_{x} \frac{\partial f(x)}{\partial x_{i}}=\left[\begin{array}{c}{\frac{\partial^{2} f(x)}{\partial x_{i} \partial x_{1}}} \\ {\frac{\partial^{2} f(x)}{\partial x_{2} \partial x_{2}}} \\ {\vdots} \\ {\frac{\partial f(x)}{\partial x_{i} \partial x_{n}}}\end{array}\right]

这是黑塞矩阵第ii行(列),所以: x2f(x)=[x(xf(x))1x(xf(x))2x(xf(x))n]\nabla_{x}^{2} f(x)=\left[\nabla_{x}\left(\nabla_{x} f(x)\right)_{1} \quad \nabla_{x}\left(\nabla_{x} f(x)\right)_{2} \quad \cdots \quad \nabla_{x}\left(\nabla_{x} f(x)\right)_{n}\right]简单地说:我们可以说由于:x2f(x)=x(xf(x))T\nabla_{x}^{2} f(x)=\nabla_{x}\left(\nabla_{x} f(x)\right)^{T},只要我们理解,这实际上是取xf(x)\nabla_{x} f(x)的每个元素的梯度,而不是整个向量的梯度。

最后,请注意,虽然我们可以对矩阵ARnA\in \mathbb{R}^{n}取梯度,但对于这门课,我们只考虑对向量xRnx \in \mathbb{R}^{n}取黑塞矩阵。 这会方便很多(事实上,我们所做的任何计算都不要求我们找到关于矩阵的黑森方程),因为关于矩阵的黑塞方程就必须对矩阵所有元素求偏导数2f(A)/(AijAk)\partial^{2} f(A) /\left(\partial A_{i j} \partial A_{k \ell}\right),将其表示为矩阵相当麻烦。

3.3.3 二次函数和线性函数的梯度和黑塞矩阵

现在让我们尝试确定几个简单函数的梯度和黑塞矩阵。

对于xRnx \in \mathbb{R}^{n}, 设f(x)=bTxf(x)=b^Tx 的某些已知向量bRnb \in \mathbb{R}^{n} ,则:

f(x)=i=1nbixif(x)=\sum_{i=1}^{n} b_{i} x_{i}

所以: f(x)xk=xki=1nbixi=bk\frac{\partial f(x)}{\partial x_{k}}=\frac{\partial}{\partial x_{k}} \sum_{i=1}^{n} b_{i} x_{i}=b_{k}由此我们可以很容易地看出xbTx=b\nabla_{x} b^{T} x=b。 这应该与单变量微积分中的类似情况进行比较,其中/(x)ax=a\partial /(\partial x) a x=a。 现在考虑ASnA\in \mathbb{S}^{n}的二次函数f(x)=xTAxf(x)=x^TAx。 记住这一点: (x)=i=1nj=1nAijxixj(x)=\sum_{i=1}^{n} \sum_{j=1}^{n} A_{i j} x_{i} x_{j} 取偏导数,我们将分别考虑包括xkx_kx2kx_2^k因子的项:

f(x)xk=xki=1nj=1nAijxixj=xk[ikjkAijxixj+ikAikxixk+jkAkjxkxj+Akkxk2]=ikAikxi+jkAkjxj+2Akkxk=i=1nAikxi+j=1nAkjxj=2i=1nAkixi\begin{aligned} \frac{\partial f(x)}{\partial x_{k}} &=\frac{\partial}{\partial x_{k}} \sum_{i=1}^{n} \sum_{j=1}^{n} A_{i j} x_{i} x_{j} \\ &=\frac{\partial}{\partial x_{k}}\left[\sum_{i \neq k} \sum_{j \neq k} A_{i j} x_{i} x_{j}+\sum_{i \neq k} A_{i k} x_{i} x_{k}+\sum_{j \neq k} A_{k j} x_{k} x_{j}+A_{k k} x_{k}^{2}\right] \\ &=\sum_{i \neq k} A_{i k} x_{i}+\sum_{j \neq k} A_{k j} x_{j}+2 A_{k k} x_{k} \\ &=\sum_{i=1}^{n} A_{i k} x_{i}+\sum_{j=1}^{n} A_{k j} x_{j}=2 \sum_{i=1}^{n} A_{k i} x_{i} \end{aligned}

最后一个等式,是因为AA是对称的(我们可以安全地假设,因为它以二次形式出现)。 注意,xf(x)\nabla_{x} f(x)的第kk个元素是AAxx的第kk行的内积。 因此,xxTAx=2Ax\nabla_{x} x^{T} A x=2 A x。 同样,这应该提醒你单变量微积分中的类似事实,即/(x)ax2=2ax\partial /(\partial x) a x^{2}=2 a x

最后,让我们来看看二次函数f(x)=xTAxf(x)=x^TAx黑塞矩阵(显然,线性函数bTxb^Tx的黑塞矩阵为零)。在这种情况下: 2f(x)xkx=xk[f(x)x]=xk[2i=1nAixi]=2Ak=2Ak\frac{\partial^{2} f(x)}{\partial x_{k} \partial x_{\ell}}=\frac{\partial}{\partial x_{k}}\left[\frac{\partial f(x)}{\partial x_{\ell}}\right]=\frac{\partial}{\partial x_{k}}\left[2 \sum_{i=1}^{n} A_{\ell i} x_{i}\right]=2 A_{\ell k}=2 A_{k \ell}因此,应该很清楚x2xTAx=2A\nabla_{x}^2 x^{T} A x=2 A,这应该是完全可以理解的(同样类似于2/(x2)ax2=2a\partial^2 /(\partial x^2) a x^{2}=2a的单变量事实)。

简要概括起来:

  • xbTx=b\nabla_{x} b^{T} x=b

  • xxTAx=2Ax\nabla_{x} x^{T} A x=2 A x (如果AA是对称阵)

  • x2xTAx=2A\nabla_{x}^2 x^{T} A x=2 A (如果AA是对称阵)

3.3.4 最小二乘法

让我们应用上一节中得到的方程来推导最小二乘方程。假设我们得到矩阵ARm×nA\in \mathbb{R}^{m \times n}(为了简单起见,我们假设AA是满秩)和向量bRmb\in \mathbb{R}^{m},从而使bR(A)b \notin \mathcal{R}(A)。在这种情况下,我们将无法找到向量xRnx\in \mathbb{R}^{n},由于Ax=bAx = b,因此我们想要找到一个向量xx,使得AxAx尽可能接近 bb,用欧几里德范数的平方Axb22\|A x-b\|_{2}^{2} 来衡量。

使用公式x2=xTx\|x\|^{2}=x^Tx,我们可以得到:

Axb22=(Axb)T(Axb)=xTATAx2bTAx+bTb\begin{aligned}\|A x-b\|_{2}^{2} &=(A x-b)^{T}(A x-b) \\ &=x^{T} A^{T} A x-2 b^{T} A x+b^{T} b \end{aligned}

根据xx的梯度,并利用上一节中推导的性质: x(xTATAx2bTAx+bTb)=xxTATAxx2bTAx+xbTb=2ATAx2ATb\begin{aligned} \nabla_{x}\left(x^{T} A^{T} A x-2 b^{T} A x+b^{T} b\right) &=\nabla_{x} x^{T} A^{T} A x-\nabla_{x} 2 b^{T} A x+\nabla_{x} b^{T} b \\ &=2 A^{T} A x-2 A^{T} b \end{aligned}将最后一个表达式设置为零,然后解出xx,得到了正规方程: =(ATA)1ATb= (A^TA)^{-1}A^Tb我们在课堂上得到的相同。

3.3.5 行列式的梯度

现在让我们考虑一种情况,我们找到一个函数相对于矩阵的梯度,也就是说,对于ARn×nA\in \mathbb{R}^{n \times n},我们要找到AA\nabla_{A}|A|。回想一下我们对行列式的讨论: A=i=1n(1)i+jAijA\i,\j( for any j1,,n)|A|=\sum_{i=1}^{n}(-1)^{i+j} A_{i j}\left|A_{\backslash i, \backslash j}\right| \quad(\text { for any } j \in 1, \ldots, n)所以: fracAkA=Aki=1n(1)i+jAijA\i,\j=(1)k+A\k,\=(adj(A))kfrac{\partial}{\partial A_{k \ell}}|A|=\frac{\partial}{\partial A_{k \ell}} \sum_{i=1}^{n}(-1)^{i+j} A_{i j}\left|A_{\backslash i, \backslash j}\right|=(-1)^{k+\ell}\left|A_{\backslash k,\backslash \ell}\right|=(\operatorname{adj}(A))_{\ell k} 里可以知道,它直接从伴随矩阵的性质得出: blaAA=(adj(A))T=AATbla_{A}|A|=(\operatorname{adj}(A))^{T}=|A| A^{-T} 来考虑函数f:S++nRf : \mathbb{S}_{++}^{n} \rightarrow \mathbb{R}f(A)=logAf(A)=\log |A|。注意,我们必须将ff的域限制为正定矩阵,因为这确保了A>0|A|>0,因此A|A|的对数是实数。在这种情况下,我们可以使用链式法则(没什么奇怪的,只是单变量演算中的普通链式法则)来看看: logAAij=logAAAAij=1AAAij{\partial \log |A|}{\partial A_{i j}}=\frac{\partial \log |A|}{\partial|A|} \frac{\partial|A|}{\partial A_{i j}}=\frac{1}{|A|} \frac{\partial|A|}{\partial A_{i j}} 明显看出:

AlogA=1AAA=A1\nabla_{A} \log |A|=\frac{1}{|A|} \nabla_{A}|A|=A^{-1}

我们可以在最后一个表达式中删除转置,因为AA是对称的。注意与单值情况的相似性,其中/(x)logx=1/x\partial /(\partial x) \log x=1 / x

3.3.6 特征值优化

最后,我们使用矩阵演算以直接导致特征值/特征向量分析的方式求解优化问题。 考虑以下等式约束优化问题:

maxxRnxTAx subject to x22=1\max _{x \in \mathbb{R}^{n}} x^{T} A x \quad \text { subject to }\|x\|_{2}^{2}=1

对于对称矩阵ASnA\in \mathbb{S}^{n}。求解等式约束优化问题的标准方法是采用拉格朗日形式,一种包含等式约束的目标函数,在这种情况下,拉格朗日函数可由以下公式给出:

L(x,λ)=xTAxλxTx\mathcal{L}(x, \lambda)=x^{T} A x-\lambda x^{T} x

其中,λ\lambda 被称为与等式约束关联的拉格朗日乘子。可以确定,要使xx^*成为问题的最佳点,拉格朗日的梯度必须在xx^*处为零(这不是唯一的条件,但它是必需的)。也就是说, xL(x,λ)=x(xTAxλxTx)=2ATx2λx=0\nabla_{x} \mathcal{L}(x, \lambda)=\nabla_{x}\left(x^{T} A x-\lambda x^{T} x\right)=2 A^{T} x-2 \lambda x=0请注意,这只是线性方程Ax=λxAx =\lambda x。 这表明假设xTx=1x^T x = 1,可能最大化(或最小化)xTAxx^T Ax的唯一点是AA的特征向量。

4 向量

4.1 有关向量组的线性表示

(1)α1,α2,,αs\alpha_{1},\alpha_{2},\cdots,\alpha_{s}线性相关\Leftrightarrow至少有一个向量可以用其余向量线性表示。

(2)α1,α2,,αs\alpha_{1},\alpha_{2},\cdots,\alpha_{s}线性无关,α1,α2,,αs\alpha_{1},\alpha_{2},\cdots,\alpha_{s}β\beta线性相关β\Leftrightarrow \beta可以由α1,α2,,αs\alpha_{1},\alpha_{2},\cdots,\alpha_{s}唯一线性表示。

(3) β\beta可以由α1,α2,,αs\alpha_{1},\alpha_{2},\cdots,\alpha_{s}线性表示 r(α1,α2,,αs)=r(α1,α2,,αs,β)\Leftrightarrow r(\alpha_{1},\alpha_{2},\cdots,\alpha_{s}) =r(\alpha_{1},\alpha_{2},\cdots,\alpha_{s},\beta)

4.2 有关向量组的线性相关性

(1)部分相关,整体相关;整体无关,部分无关.

(2) ① nnnn维向量 α1,α2αn\alpha_{1},\alpha_{2}\cdots\alpha_{n}线性无关[α1α2αn]0\Leftrightarrow \left|\left\lbrack \alpha_{1}\alpha_{2}\cdots\alpha_{n} \right\rbrack \right| \neq0nnnn维向量α1,α2αn\alpha_{1},\alpha_{2}\cdots\alpha_{n}线性相关 [α1,α2,,αn]=0\Leftrightarrow |\lbrack\alpha_{1},\alpha_{2},\cdots,\alpha_{n}\rbrack| = 0

n+1n + 1nn维向量线性相关。

③ 若α1,α2αS\alpha_{1},\alpha_{2}\cdots\alpha_{S}线性无关,则添加分量后仍线性无关;或一组向量线性相关,去掉某些分量后仍线性相关。

4.3 有关向量组的线性表示

(1) α1,α2,,αs\alpha_{1},\alpha_{2},\cdots,\alpha_{s}线性相关\Leftrightarrow至少有一个向量可以用其余向量线性表示。

(2) α1,α2,,αs\alpha_{1},\alpha_{2},\cdots,\alpha_{s}线性无关,α1,α2,,αs\alpha_{1},\alpha_{2},\cdots,\alpha_{s}β\beta线性相关β\Leftrightarrow\beta 可以由α1,α2,,αs\alpha_{1},\alpha_{2},\cdots,\alpha_{s}唯一线性表示。

(3) β\beta可以由α1,α2,,αs\alpha_{1},\alpha_{2},\cdots,\alpha_{s}线性表示 r(α1,α2,,αs)=r(α1,α2,,αs,β)\Leftrightarrow r(\alpha_{1},\alpha_{2},\cdots,\alpha_{s}) =r(\alpha_{1},\alpha_{2},\cdots,\alpha_{s},\beta)

4.4 向量组的秩与矩阵的秩之间的关系

r(Am×n)=rr(A_{m \times n}) =r,则AA的秩r(A)r(A)AA的行列向量组的线性相关性关系为:

(1) 若r(Am×n)=r=mr(A_{m \times n}) = r = m,则AA的行向量组线性无关。

(2) 若r(Am×n)=r<mr(A_{m \times n}) = r < m,则AA的行向量组线性相关。

(3) 若r(Am×n)=r=nr(A_{m \times n}) = r = n,则AA的列向量组线性无关。

(4) 若r(Am×n)=r<nr(A_{m \times n}) = r < n,则AA的列向量组线性相关。

**4.5 **n\mathbf{n}维向量空间的基变换公式及过渡矩阵

α1,α2,,αn\alpha_{1},\alpha_{2},\cdots,\alpha_{n}β1,β2,,βn\beta_{1},\beta_{2},\cdots,\beta_{n}是向量空间VV的两组基,则基变换公式为:

(β1,β2,,βn)=(α1,α2,,αn)[c11c12c1nc21c22c2ncn1cn2cnn]=(α1,α2,,αn)C(\beta_{1},\beta_{2},\cdots,\beta_{n}) = (\alpha_{1},\alpha_{2},\cdots,\alpha_{n})\begin{bmatrix} c_{11}& c_{12}& \cdots & c_{1n} \\ c_{21}& c_{22}&\cdots & c_{2n} \\ \cdots & \cdots & \cdots & \cdots \\ c_{n1}& c_{n2} & \cdots & c_{{nn}} \\\end{bmatrix} = (\alpha_{1},\alpha_{2},\cdots,\alpha_{n})C

其中CC是可逆矩阵,称为由基α1,α2,,αn\alpha_{1},\alpha_{2},\cdots,\alpha_{n}到基β1,β2,,βn\beta_{1},\beta_{2},\cdots,\beta_{n}的过渡矩阵。

4.6 坐标变换公式

若向量γ\gamma在基α1,α2,,αn\alpha_{1},\alpha_{2},\cdots,\alpha_{n}与基β1,β2,,βn\beta_{1},\beta_{2},\cdots,\beta_{n}的坐标分别是 X=(x1,x2,,xn)TX = {(x_{1},x_{2},\cdots,x_{n})}^{T}

Y=(y1,y2,,yn)TY = \left( y_{1},y_{2},\cdots,y_{n} \right)^{T} 即: γ=x1α1+x2α2++xnαn=y1β1+y2β2++ynβn\gamma =x_{1}\alpha_{1} + x_{2}\alpha_{2} + \cdots + x_{n}\alpha_{n} = y_{1}\beta_{1} +y_{2}\beta_{2} + \cdots + y_{n}\beta_{n},则向量坐标变换公式为X=CYX = CYY=C1XY = C^{- 1}X,其中CC是从基α1,α2,,αn\alpha_{1},\alpha_{2},\cdots,\alpha_{n}到基β1,β2,,βn\beta_{1},\beta_{2},\cdots,\beta_{n}的过渡矩阵。

4.7 向量的内积(Inner Product)

也可以成为点积(Dot Product)或标量积(Scalar Product)

(α,β)=a1b1+a2b2++anbn=αTβ=βTα(\alpha,\beta) = a_{1}b_{1} + a_{2}b_{2} + \cdots + a_{n}b_{n} = \alpha^{T}\beta = \beta^{T}\alpha

4.8 Schmidt 正交化

α1,α2,,αs\alpha_{1},\alpha_{2},\cdots,\alpha_{s}线性无关,则可构造β1,β2,,βs\beta_{1},\beta_{2},\cdots,\beta_{s}使其两两正交,且βi\beta_{i}仅是α1,α2,,αi\alpha_{1},\alpha_{2},\cdots,\alpha_{i}的线性组合(i=1,2,,n)(i= 1,2,\cdots,n),再把βi\beta_{i}单位化,记γi=βiβi\gamma_{i} =\frac{\beta_{i}}{\left| \beta_{i}\right|},则γ1,γ2,,γi\gamma_{1},\gamma_{2},\cdots,\gamma_{i}是规范正交向量组。其中 β1=α1\beta_{1} = \alpha_{1}β2=α2(α2,β1)(β1,β1)β1\beta_{2} = \alpha_{2} -\frac{(\alpha_{2},\beta_{1})}{(\beta_{1},\beta_{1})}\beta_{1}β3=α3(α3,β1)(β1,β1)β1(α3,β2)(β2,β2)β2\beta_{3} =\alpha_{3} - \frac{(\alpha_{3},\beta_{1})}{(\beta_{1},\beta_{1})}\beta_{1} -\frac{(\alpha_{3},\beta_{2})}{(\beta_{2},\beta_{2})}\beta_{2}

............

βs=αs(αs,β1)(β1,β1)β1(αs,β2)(β2,β2)β2(αs,βs1)(βs1,βs1)βs1\beta_{s} = \alpha_{s} - \frac{(\alpha_{s},\beta_{1})}{(\beta_{1},\beta_{1})}\beta_{1} - \frac{(\alpha_{s},\beta_{2})}{(\beta_{2},\beta_{2})}\beta_{2} - \cdots - \frac{(\alpha_{s},\beta_{s - 1})}{(\beta_{s - 1},\beta_{s - 1})}\beta_{s - 1}

4.9 正交基及规范正交基

向量空间一组基中的向量如果两两正交,就称为正交基;若正交基中每个向量都是单位向量,就称其为规范正交基。

5 线性方程组

1. 克莱姆法则

线性方程组{a11x1+a12x2++a1nxn=b1a21x1+a22x2++a2nxn=b2an1x1+an2x2++annxn=bn\begin{cases} a_{11}x_{1} + a_{12}x_{2} + \cdots +a_{1n}x_{n} = b_{1} \\ a_{21}x_{1} + a_{22}x_{2} + \cdots + a_{2n}x_{n} =b_{2} \\ \quad\cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots\cdots \\ a_{n1}x_{1} + a_{n2}x_{2} + \cdots + a_{{nn}}x_{n} = b_{n} \\ \end{cases},如果系数行列式D=A0D = \left| A \right| \neq 0,则方程组有唯一解,x1=D1D,x2=D2D,,xn=DnDx_{1} = \frac{D_{1}}{D},x_{2} = \frac{D_{2}}{D},\cdots,x_{n} =\frac{D_{n}}{D},其中DjD_{j}是把DD中第jj列元素换成方程组右端的常数列所得的行列式。

2. nn阶矩阵AA可逆Ax=0\Leftrightarrow Ax = 0只有零解。b,Ax=b\Leftrightarrow\forall b,Ax = b总有唯一解,一般地,r(Am×n)=nAx=0r(A_{m \times n}) = n \Leftrightarrow Ax= 0只有零解。

3.非奇次线性方程组有解的充分必要条件,线性方程组解的性质和解的结构

(1) 设AAm×nm \times n矩阵,若r(Am×n)=mr(A_{m \times n}) = m,则对Ax=bAx =b而言必有r(A)=r(Ab)=mr(A) = r(A \vdots b) = m,从而Ax=bAx = b有解。

(2) 设x1,x2,xsx_{1},x_{2},\cdots x_{s}Ax=bAx = b的解,则k1x1+k2x2+ksxsk_{1}x_{1} + k_{2}x_{2}\cdots + k_{s}x_{s}k1+k2++ks=1k_{1} + k_{2} + \cdots + k_{s} = 1时仍为Ax=bAx =b的解;但当k1+k2++ks=0k_{1} + k_{2} + \cdots + k_{s} = 0时,则为Ax=0Ax =0的解。特别x1+x22\frac{x_{1} + x_{2}}{2}Ax=bAx = b的解;2x3(x1+x2)2x_{3} - (x_{1} +x_{2})Ax=0Ax = 0的解。

(3) 非齐次线性方程组Ax=b{Ax} = b无解r(A)+1=r(A)b\Leftrightarrow r(A) + 1 =r(\overline{A}) \Leftrightarrow b不能由AA的列向量α1,α2,,αn\alpha_{1},\alpha_{2},\cdots,\alpha_{n}线性表示。

4.奇次线性方程组的基础解系和通解,解空间,非奇次线性方程组的通解

(1) 齐次方程组Ax=0{Ax} = 0恒有解(必有零解)。当有非零解时,由于解向量的任意线性组合仍是该齐次方程组的解向量,因此Ax=0{Ax}= 0的全体解向量构成一个向量空间,称为该方程组的解空间,解空间的维数是nr(A)n - r(A),解空间的一组基称为齐次方程组的基础解系。

(2) η1,η2,,ηt\eta_{1},\eta_{2},\cdots,\eta_{t}Ax=0{Ax} = 0的基础解系,即:

  1. η1,η2,,ηt\eta_{1},\eta_{2},\cdots,\eta_{t}Ax=0{Ax} = 0的解;

  2. η1,η2,,ηt\eta_{1},\eta_{2},\cdots,\eta_{t}线性无关;

  3. Ax=0{Ax} = 0的任一解都可以由η1,η2,,ηt\eta_{1},\eta_{2},\cdots,\eta_{t}线性表出. k1η1+k2η2++ktηtk_{1}\eta_{1} + k_{2}\eta_{2} + \cdots + k_{t}\eta_{t}Ax=0{Ax} = 0的通解,其中k1,k2,,ktk_{1},k_{2},\cdots,k_{t}是任意常数。

6 矩阵的特征值和特征向量

6.1 矩阵的特征值和特征向量的概念及性质

(1) 设λ\lambdaAA的一个特征值,则 kA,aA+bE,A2,Am,f(A),AT,A1,A{kA},{aA} + {bE},A^{2},A^{m},f(A),A^{T},A^{- 1},A^{*}有一个特征值分别为 kλ,aλ+b,λ2,λm,f(λ),λ,λ1,Aλ,{kλ},{aλ} + b,\lambda^{2},\lambda^{m},f(\lambda),\lambda,\lambda^{- 1},\frac{|A|}{\lambda},且对应特征向量相同(ATA^{T} 例外)。

(2)若λ1,λ2,,λn\lambda_{1},\lambda_{2},\cdots,\lambda_{n}AAnn个特征值,则i=1nλi=i=1naii,i=1nλi=A\sum_{i= 1}^{n}\lambda_{i} = \sum_{i = 1}^{n}a_{{ii}},\prod_{i = 1}^{n}\lambda_{i}= |A| ,从而A0A|A| \neq 0 \Leftrightarrow A没有特征值。

(3)设λ1,λ2,,λs\lambda_{1},\lambda_{2},\cdots,\lambda_{s}AAss个特征值,对应特征向量为α1,α2,,αs\alpha_{1},\alpha_{2},\cdots,\alpha_{s}

若: α=k1α1+k2α2++ksαs\alpha = k_{1}\alpha_{1} + k_{2}\alpha_{2} + \cdots + k_{s}\alpha_{s} ,

则: Anα=k1Anα1+k2Anα2++ksAnαs=k1λ1nα1+k2λ2nα2+ksλsnαsA^{n}\alpha = k_{1}A^{n}\alpha_{1} + k_{2}A^{n}\alpha_{2} + \cdots +k_{s}A^{n}\alpha_{s} = k_{1}\lambda_{1}^{n}\alpha_{1} +k_{2}\lambda_{2}^{n}\alpha_{2} + \cdots k_{s}\lambda_{s}^{n}\alpha_{s}

6.2相似变换、相似矩阵的概念及性质

(1) 若ABA \sim B,则

  1. ATBT,A1B1,,ABA^{T} \sim B^{T},A^{- 1} \sim B^{- 1},,A^{*} \sim B^{*}

  2. A=B,i=1nAii=i=1nbii,r(A)=r(B)|A| = |B|,\sum_{i = 1}^{n}A_{{ii}} = \sum_{i =1}^{n}b_{{ii}},r(A) = r(B)

  3. λEA=λEB|\lambda E - A| = |\lambda E - B|,对λ\forall\lambda成立

6.3 矩阵可相似对角化的充分必要条件

(1)设AAnn阶方阵,则AA可对角化\Leftrightarrow对每个kik_{i}重根特征值λi\lambda_{i},有nr(λiEA)=kin-r(\lambda_{i}E - A) = k_{i}

(2) 设AA可对角化,则由P1AP=Λ,P^{- 1}{AP} = \Lambda,A=PΛP1A = {PΛ}P^{-1},从而An=PΛnP1A^{n} = P\Lambda^{n}P^{- 1}

(3) 重要结论

  1. AB,CDA \sim B,C \sim D,则[AOOC][BOOD]\begin{bmatrix} A & O \\ O & C \\\end{bmatrix} \sim \begin{bmatrix} B & O \\ O & D \\\end{bmatrix}.

  2. ABA \sim B,则f(A)f(B),f(A)f(B)f(A) \sim f(B),\left| f(A) \right| \sim \left| f(B)\right|,其中f(A)f(A)为关于nn阶方阵AA的多项式。

  3. AA为可对角化矩阵,则其非零特征值的个数(重根重复计算)=秩(AA)

6.4 实对称矩阵的特征值、特征向量及相似对角阵

(1)相似矩阵:设A,BA,B为两个nn阶方阵,如果存在一个可逆矩阵PP,使得B=P1APB =P^{- 1}{AP}成立,则称矩阵AABB相似,记为ABA \sim B

(2)相似矩阵的性质:如果ABA \sim B则有:

  1. ATBTA^{T} \sim B^{T}

  2. A1B1A^{- 1} \sim B^{- 1} (若AABB均可逆)

  3. AkBkA^{k} \sim B^{k}kk为正整数)

  4. λEA=λEB\left| {λE} - A \right| = \left| {λE} - B \right|,从而A,BA,B 有相同的特征值

  5. A=B\left| A \right| = \left| B \right|,从而A,BA,B同时可逆或者不可逆

  6. (A)=\left( A \right) =(B),λEA=λEB\left( B \right),\left| {λE} - A \right| =\left| {λE} - B \right|A,BA,B不一定相似

7 二次型

7.1 n\mathbf{n}个变量x1,x2,,xn\mathbf{x}_{\mathbf{1}}\mathbf{,}\mathbf{x}_{\mathbf{2}}\mathbf{,\cdots,}\mathbf{x}_{\mathbf{n}}的二次齐次函数

f(x1,x2,,xn)=i=1nj=1naijxiyjf(x_{1},x_{2},\cdots,x_{n}) = \sum_{i = 1}^{n}{\sum_{j =1}^{n}{a_{{ij}}x_{i}y_{j}}},其中aij=aji(i,j=1,2,,n)a_{{ij}} = a_{{ji}}(i,j =1,2,\cdots,n),称为nn元二次型,简称二次型. 若令x= [x1x1xn],A=[a11a12a1na21a22a2nan1an2ann]x = \ \begin{bmatrix}x_{1} \\ x_{1} \\ \vdots \\ x_{n} \\ \end{bmatrix},A = \begin{bmatrix} a_{11}& a_{12}& \cdots & a_{1n} \\ a_{21}& a_{22}& \cdots & a_{2n} \\ \cdots &\cdots &\cdots &\cdots \\ a_{n1}& a_{n2} & \cdots & a_{{nn}} \\\end{bmatrix},这二次型ff可改写成矩阵向量形式f=xTAxf =x^{T}{Ax},其中AA称为二次型矩阵。写得清楚些,我们可以看到:

xTAx=i=1nxi(Ax)i=i=1nxi(j=1nAijxj)=i=1nj=1nAijxixjx^{T} A x=\sum_{i=1}^{n} x_{i}(A x)_{i}=\sum_{i=1}^{n} x_{i}\left(\sum_{j=1}^{n} A_{i j} x_{j}\right)=\sum_{i=1}^{n} \sum_{j=1}^{n} A_{i j} x_{i} x_{j}

注意: xTAx=(xTAx)T=xTATx=xT(12A+12AT)xx^{T} A x=\left(x^{T} A x\right)^{T}=x^{T} A^{T} x=x^{T}\left(\frac{1}{2} A+\frac{1}{2} A^{T}\right) x第一个等号的是因为是标量的转置与自身相等,而第二个等号是因为是我们平均两个本身相等的量。 由此,我们可以得出结论,只有AA的对称部分有助于形成二次型。 出于这个原因,我们经常隐含地假设以二次型出现的矩阵是对称阵。 我们给出以下定义:

  • 对于所有非零向量xRnx \in \mathbb{R}^nxTAx>0x^TAx>0,对称阵ASnA \in \mathbb{S}^n正定positive definite,PD)。这通常表示为A0A\succ0(或A>0A>0),并且通常将所有正定矩阵的集合表示为S++n\mathbb{S}_{++}^n

  • 对于所有向量xTAx0x^TAx\geq 0,对称矩阵ASnA \in \mathbb{S}^n半正定(positive semidefinite ,PSD)。 这写为(或A0A \succeq 0A0A≥0),并且所有半正定矩阵的集合通常表示为S+n\mathbb{S}_+^n

  • 同样,对称矩阵ASnA \in \mathbb{S}^n负定negative definite,ND),如果对于所有非零xRnx \in \mathbb{R}^n,则xTAx<0x^TAx <0表示为A0A\prec0(或A<0A <0)。

  • 类似地,对称矩阵ASnA \in \mathbb{S}^n半负定(negative semidefinite,NSD),如果对于所有xRnx \in \mathbb{R}^n,则xTAx0x^TAx \leq 0表示为A0A\preceq 0(或A0A≤0)。

  • 最后,对称矩阵ASnA \in \mathbb{S}^n不定的,如果它既不是正半定也不是负半定,即,如果存在x1,x2Rnx_1,x_2 \in \mathbb{R}^n,那么x1TAx1>0x_1^TAx_1>0x2TAx2<0x_2^TAx_2<0

很明显,如果AA是正定的,那么A−A是负定的,反之亦然。同样,如果AA是半正定的,那么A−A是是半负定的,反之亦然。如果果AA是不定的,那么A−A是也是不定的。

正定矩阵和负定矩阵的一个重要性质是它们总是满秩,因此是可逆的。为了了解这是为什么,假设某个矩阵ASnA \in \mathbb{S}^n不是满秩。然后,假设AA的第jj列可以表示为其他n1n-1列的线性组合: aj=ijxiaia_{j}=\sum_{i \neq j} x_{i} a_{i}对于某些x1,xj1,xj+1,,xnRx_1,\cdots x_{j-1},x_{j + 1} ,\cdots ,x_n\in \mathbb{R}。设xj=1x_j = -1,则: x=ijxiai=0x=\sum_{i \neq j} x_{i} a_{i}=0 意味着对于某些非零向量xxxTAx=0x^T Ax = 0,因此AA必须既不是正定也不是负定。如果AA是正定或负定,则必须是满秩。 最后,有一种类型的正定矩阵经常出现,因此值得特别提及。 给定矩阵ARm×nA \in \mathbb{R}^{m \times n}(不一定是对称或偶数平方),矩阵G=ATAG = A^T A(有时称为Gram矩阵)总是半正定的。 此外,如果mnm\geq n(同时为了方便起见,我们假设AA是满秩),则G=ATAG = A^T A是正定的。

7.2 惯性定理,二次型的标准形和规范形

(1) 惯性定理

对于任一二次型,不论选取怎样的合同变换使它化为仅含平方项的标准型,其正负惯性指数与所选变换无关,这就是所谓的惯性定理。

(2) 标准形

二次型f=(x1,x2,,xn)=xTAxf = \left( x_{1},x_{2},\cdots,x_{n} \right) =x^{T}{Ax}经过合同变换x=Cyx = {Cy}化为f=xTAx=yTCTACf = x^{T}{Ax} =y^{T}C^{T}{AC}

y=i=1rdiyi2y = \sum_{i = 1}^{r}{d_{i}y_{i}^{2}}称为 f(rn)f(r \leq n)的标准形。在一般的数域内,二次型的标准形不是唯一的,与所作的合同变换有关,但系数不为零的平方项的个数由r(A)r(A)唯一确定。

(3) 规范形

任一实二次型ff都可经过合同变换化为规范形f=z12+z22+zp2zp+12zr2f = z_{1}^{2} + z_{2}^{2} + \cdots z_{p}^{2} - z_{p + 1}^{2} - \cdots -z_{r}^{2},其中rrAA的秩,pp为正惯性指数,rpr -p为负惯性指数,且规范型唯一。

7.3 用正交变换和配方法化二次型为标准形,二次型及其矩阵的正定性

AA正定kA(k>0),AT,A1,A\Rightarrow {kA}(k > 0),A^{T},A^{- 1},A^{*}正定;A>0|A| >0,AA可逆;aii>0a_{{ii}} > 0,且Aii>0|A_{{ii}}| > 0

AABB正定A+B\Rightarrow A +B正定,但AB{AB}BA{BA}不一定正定

AA正定f(x)=xTAx>0,x0\Leftrightarrow f(x) = x^{T}{Ax} > 0,\forall x \neq 0

A\Leftrightarrow A的各阶顺序主子式全大于零

A\Leftrightarrow A的所有特征值大于零

A\Leftrightarrow A的正惯性指数为nn

\Leftrightarrow存在可逆阵PP使A=PTPA = P^{T}P

\Leftrightarrow存在正交矩阵QQ,使QTAQ=Q1AQ=(λ1λn),Q^{T}{AQ} = Q^{- 1}{AQ} =\begin{pmatrix} \lambda_{1} & & \\ \begin{matrix} & \\ & \\ \end{matrix} &\ddots & \\ & & \lambda_{n} \\ \end{pmatrix},

其中λi>0,i=1,2,,n.\lambda_{i} > 0,i = 1,2,\cdots,n.正定kA(k>0),AT,A1,A\Rightarrow {kA}(k >0),A^{T},A^{- 1},A^{*}正定; A>0,A|A| > 0,A可逆;aii>0a_{{ii}} >0,且Aii>0|A_{{ii}}| > 0