【机器学习|数学基础】Mathematics for Machine Learning系列之线性代数(16):方阵的特征值与特征向量

160 阅读4分钟

小知识,大挑战!本文正在参与“程序员必备小知识”创作活动。

前言

Hello!小伙伴!

非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~

 

自我介绍 ଘ(੭ˊᵕˋ)੭

昵称:海轰

标签:程序猿|C++选手|学生

简介:因C语言结识编程,随后转入计算机专业,有幸拿过一些国奖、省奖...已保研。目前正在学习C++/Linux/Python

学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语!

 

机器学习小白阶段

文章仅作为自己的学习笔记 用于知识体系建立以及复习

知其然 知其所以然!

5.2 方阵的特征值与特征向量

定义6

AAnn阶矩阵,如果数λ\lambdann维非零列向量xx使关系式

Ax=λx(1)Ax=\lambda x \tag{1}

成立,那么数λ\lambda称为矩阵AA特征值,非零向量xx称为AA的对应特征值λ\lambda特征向量

(1)式也可以写为

(AλE)x=0(2)(A-\lambda E)x=0 \tag{2}

(2)式有非零解说明AλE=0|A-\lambda E|=0

方程Ax=0Ax=0有非零解时,说明R(A)<nR(A)<n,即A=0|A|=0

[a11λa12...a1na21a22λ...a2n......an1an2...annλ]=0(3)\begin{bmatrix} a_{11}-\lambda & a_{12} &... & a_{1n}\\ a_{21} & a_{22}-\lambda & ... &a_{2n}\\ . & . & & . \\ . & . & & . \\ a_{n1} & a_{n2} &... & a_{nn}-\lambda\\ \end{bmatrix}=0\tag{3}

(3)式是以λ\lambda为未知数的一元n次方程,称为矩阵A的特征方程AλE|A-\lambda E|λ\lambda的n次多项式,记作f(λ)f(\lambda),称为矩阵A的特征多项式

  • AA的特征值就是特征方程的解
  • 特征方程在复数范围内一定有解,其解的个数为方程的次数
  • nn阶矩阵AA在复数范围内有nn个特征值

性质1:设nn阶矩阵A=(aij)A=(a_{ij})的特征值为λ1,λ2,...,λn\lambda_1,\lambda_2,...,\lambda_n,则有

  • λ1+λ2+...+λn=a11+a22+...+ann\lambda_1+\lambda_2+...+\lambda_n=a_{11}+a_{22}+...+a_{nn}
  • λ1λ2....λn=A\lambda_1\lambda_2....\lambda_n=|A|

性质2:设λ=λi\lambda=\lambda_i为矩阵AA的一个特征值,则由方程

(AλiE)x=0(A-\lambda_iE)x=0

求得非零解x=pix=p_i,那么pip_i就是AA的对应于特征值λi\lambda_i的特征向量

显然pip_i是矩阵AA对应于特征值λi\lambda_i的特征向量 那么kpikp_i也是矩阵AA对应于特征值λi\lambda_i的特征向量

定理2

λ1,λ2,...,λm\lambda_1,\lambda_2,...,\lambda_m是方阵的mm个特征值,p1,p2,...,pmp_1,p_2,...,p_m依次是与之对应的特征向量,如果λ1,λ2,...,λm\lambda_1,\lambda_2,...,\lambda_m各不相等,则p1,p2,...,pmp_1,p_2,...,p_m线性无关

证明:使用数学归纳法

m=1m=1时,特征向量为p1p_1,则只含有一个向量p1p_1的向量组一定是线性无关

p1p_1是特征向量,那么p1p_1肯定是非空向量(由定义而来)

m>1m>1

假设m=k1m=k-1时,结论成立,即

λ1,λ2,...,λk1\lambda_1,\lambda_2,...,\lambda_{k-1}是方阵的(k1)(k-1)个特征值,那么对应特征向量p1,p2,...,pk1p_1,p_2,...,p_{k-1}线性无关

那么只需要证明m=km=k时结论同样成立即可

x1p1+x2p2+....+xk1pk1+xkpk=0(1)x_1p_1+x_2p_2+....+x_{k-1}p_{k-1}+x_kp_k=0 \tag{1}

xi(i[1,k])x_i\,(i\in[1,k])表示一个常数

AA左乘(1)式,得

x1Ap1+x2Ap2+....+xk1Apk1+xkApk=0(2)x_1Ap_1+x_2Ap_2+....+x_{k-1}Ap_{k-1}+x_kAp_k=0\tag{2}

因为Api=λipiAp_i=\lambda_ip_i,得

x1λ1p1+x2λ2p2+....+xk1λk1pk1+xkλkpk=0(3)x_1\lambda_1p_1+x_2\lambda_2p_2+....+x_{k-1}\lambda_{k-1}p_{k-1}+x_k\lambda_kp_k=0\tag{3}

(3)λk(2)(3)-\lambda_k(2),得

(x1λ1p1+x2λ2p2+....+xk1λk1pk1+xkλkpk)λk(x1p1+x2p2+....+xk1pk1+xkpk)=0(x_1\lambda_1p_1+x_2\lambda_2p_2+....+x_{k-1}\lambda_{k-1}p_{k-1}+x_k\lambda_kp_k)-\lambda_k(x_1p_1+x_2p_2+....+x_{k-1}p_{k-1}+x_kp_k)=0

化简,得

x1(λ1λk)p1+x2(λ2λk)p2+....+xk1(λk1λk)pk1=0x_1(\lambda_1-\lambda_k)p_1+x_2(\lambda_2-\lambda_k)p_2+....+x_{k-1}(\lambda_{k-1}-\lambda_k)p_{k-1}=0

根据假设p1,p2,...,pk1p_1,p_2,...,p_{k-1}线性无关

所以

x1(λ1λk)=x2(λ2λk)=...=xk1(λk1λk)=0x_1(\lambda_1-\lambda_k)=x_2(\lambda_2-\lambda_k)=...=x_{k-1}(\lambda_{k-1}-\lambda_k)=0

xi(λiλk)=0(i[1,k1])x_i(\lambda_i-\lambda_k)=0\,(i\in[1,k-1])

因为λ1,λ2,...,λk\lambda_1,\lambda_2,...,\lambda_{k}各不相等,得

(λiλk)0(\lambda_i-\lambda_k)\neq0

所以

xi=0x_i=0

再将xi=0(i[1,k1])x_i=0\,(i\in[1,k-1])代入(1)式,得到

xkpk=0x_kp_k=0

因为pk0p_k\neq0,故

xk=0x_k=0

从而

x1=x2=....=xk1=xk=0x_1=x_2=....=x_{k-1}=x_k=0

p1,p2,...,pkp_1,p_2,...,p_k线性无关

从而当m=km=k时,结论同样成立

证明完成!

举例

例5

求矩阵A=[3113]A=\begin{bmatrix} 3 & -1\\ -1 & 3 \end{bmatrix}的特征值和特征向量

解答:

AA的特征多项式为

AλE=A=[3λ113λ]=(3λ)21=86λ+λ2=(4λ)(2λ)|A-\lambda E|=A=\begin{bmatrix} 3-\lambda & -1\\ -1 & 3-\lambda \end{bmatrix}=(3-\lambda)^2-1=8-6\lambda+\lambda^2=(4-\lambda)(2-\lambda)

解得

λ1=2,λ2=4\lambda_1=2,\lambda_2=4

λ1=2\lambda_1=2时,对应的特征向量满足

(Aλ1E)x=0(2)(A-\lambda_1 E)x=0 \tag{2}

A=[321132]x=[1111][x1x2]=0A=\begin{bmatrix} 3-2& -1\\ -1 & 3-2 \end{bmatrix}x=\begin{bmatrix} 1& -1\\ -1 & 1 \end{bmatrix}\begin{bmatrix} x_1\\ x_2 \end{bmatrix}=0

解得

x1=x2x_1=x_2

所以λ1=2\lambda_1=2对应的特征向量可以取p1=[11]p_1=\begin{bmatrix} 1\\ 1 \end{bmatrix}

同理

λ2=4\lambda_2=4时,解得

x1=x2x_1=-x_2

所以λ2=4\lambda_2=4对应的特征向量可以取p2=[11]p_2=\begin{bmatrix} -1\\ 1 \end{bmatrix}

综上,pip_i是对应于λi\lambda_i的特征向量,那么kpi(k0)kp_i(k\neq0)同样也是对应于λi\lambda_i的特征向量

例6

求矩阵A=[110430102]A=\begin{bmatrix} -1 & 1 & 0\\ -4 & 3 & 0\\ 1 & 0 & 2 \end{bmatrix}的特征值和特征向量

解答

AA的特征多项式为

AλE=1λ1043λ0102λ=(2λ)(1λ2)|A-\lambda E|=\begin{vmatrix} -1-\lambda & 1 & 0\\ -4 & 3-\lambda & 0\\ 1 & 0 & 2-\lambda \end{vmatrix}=(2-\lambda)(1-\lambda^2)

(2λ)(1λ2)=0(2-\lambda)(1-\lambda^2)=0,解得

λ1=2,λ2=λ3=1\lambda_1=2,\lambda_2=\lambda_3=1

λ1=2\lambda_1=2时,解方程(A2E)x=0(A-2E)x=0

A2E=[310410100]r[100010000]A-2E=\begin{bmatrix} -3 & 1 & 0\\ -4 & 1 & 0\\ 1 & 0 & 0 \end{bmatrix}\stackrel{r}{\sim}\begin{bmatrix} 1 & 0 & 0\\ 0 & 1 & 0\\ 0 & 0 & 0 \end{bmatrix}

得到基础解系

p1=[001]p_1=\begin{bmatrix} 0 \\ 0\\ 1 \end{bmatrix}

kp1(k0)kp_1(k\neq0)是对应于λ1=2\lambda_1=2的全部特征向量

λ2=λ3=1\lambda_2=\lambda_3=1,解方程(AE)x=0(A-E)x=0

AE=[210420101]r[101012000]A-E=\begin{bmatrix} -2 & 1 & 0\\ -4 & 2 & 0\\ 1 & 0 & 1 \end{bmatrix}\stackrel{r}{\sim}\begin{bmatrix} 1 & 0 & 1\\ 0 & 1 & 2\\ 0 & 0 & 0 \end{bmatrix}

得基础解系

p2=[121]p_2=\begin{bmatrix} -1 \\ -2\\ 1 \end{bmatrix}

kp2(k0)kp_2(k\neq0)是对应于λ2=λ3=1\lambda_2=\lambda_3=1的全部特征向量

例8

λ\lambda是方阵AA的特征值,证明

(1)λ2\lambda^2A2A^2的特征值

(2)当AA可逆时,1λ\frac{1}{\lambda}A1A^{-1}的特征值

证明(1):

因为λ\lambda是方阵AA的特征值

则存在非零向量xx,使得

Ax=λxAx=\lambda x

A2x=A(Ax)=A(λx)=λAx=λ(λx)=λ2xA^2x=A(Ax)=A(\lambda x)=\lambda Ax=\lambda (\lambda x)=\lambda^2 x

A2x=λ2xA^2x=\lambda^2 x

所以λ2\lambda^2A2A^2的特征值

证明(2):

因为λ\lambda是方阵AA的特征值

则存在非零向量xx,使得

Ax=λxAx=\lambda x

AA可逆时,则A1A^{-1}存在

等式两边同时左乘A1A^{-1}

A1Ax=A1λx=λA1xA^{-1}Ax=A^{-1}\lambda x=\lambda A^{-1}x

x=λA1xx=\lambda A^{-1}x

因为x0x\neq0,所以λ0\lambda\neq0

等式两边再同时除以λ\lambda,得

1λx=A1x\frac{1}{\lambda}x=A^{-1}x

综上:1λ\frac{1}{\lambda}A1A^{-1}的特征值

例9

设3阶矩阵AA的特征值为1,1,21,-1,2,求A+3A2EA^*+3A-2E的特征值

解答:

AA的特征值全不为0,得AA可逆

若至少有一个特征值为0 那么A=λ1λ2...λn=0|A|=\lambda_1\lambda_2...\lambda_n=0 说明R(A)<nR(A)<n 推出AA不可逆 相反,特征值全不为0 得A=λ1λ2...λn>0R(A)=n|A|=\lambda_1\lambda_2...\lambda_n>0、R(A)=nAA可逆

所以

A=AA1A^*=|A|A^{-1}

又因为

A=λ1λ2λ3=2|A|=\lambda_1\lambda_2\lambda_3=-2

得到

A+3A2E=2A1+3A2EA^*+3A-2E=-2A^{-1}+3A-2E

F(A)=A+3A2E=2A1+3A2EF(A)=A^*+3A-2E=-2A^{-1}+3A-2E

假设AA的特征值是λ\lambda

那么F(A)F(A)的特征值就是F(λ)=21λ+3λ2F(\lambda)=-2\frac{1}{\lambda}+3\lambda-2

结合上述,得F(A)F(A)的特征值就是

  • F(1)=1F(1)=-1
  • F(1)=3F(-1)=-3
  • F(2)=3F(2)=3

如果AA的特征值是λ1,λ2,...,λm\lambda_1,\lambda_2,...,\lambda_m 那么F(A)F(A)的特征值是F(λ1),F(λ2),...,F(λm)F(\lambda_1),F(\lambda_2),...,F(\lambda_m)

例10

λ1\lambda_1λ2\lambda_2是矩阵AA的两个不同的特征值,对应的特征向量依次为p1p_1p2p_2,证明p1+p2p_1+p_2不是AA的特征向量

证明:

因为λ1\lambda_1λ2\lambda_2是矩阵AA的两个不同的特征值

所以

Ap1=λ1p1Ap_1=\lambda_1p_1

Ap2=λ2p2Ap_2=\lambda_2p_2

使用反证法 假设p1+p2p_1+p_2是是AA的特征向量

那么就存在一个λ\lambda,使得

A(p1+p2)=λ(p1+p2)A(p_1+p_2)=\lambda(p_1+p_2)

A(p1+p2)=Ap1+Ap2=λ1p1+λ2p2A(p_1+p_2)=Ap_1+Ap_2=\lambda_1p_1+\lambda_2p_2

λ1p1+λ2p2=λ(p1+p2)\lambda_1p_1+\lambda_2p_2=\lambda(p_1+p_2)

移项得

(λ1λ)p1+(λ2λ)p2=0(\lambda_1-\lambda)p_1+(\lambda_2-\lambda)p_2=0

由定理2可知,p1,p2p_1,p_2线性无关

则有

λ1λ=0\lambda_1-\lambda=0 λ2λ=0\lambda_2-\lambda=0

λ1=λ=λ2\lambda_1=\lambda=\lambda_2

但与题意λ1λ2\lambda_1\neq\lambda_2相矛盾

故假设不成立

p1+p2p_1+p_2不是AA的特征向量

结语

说明:

  • 参考于 课本《线性代数》第五版 同济大学数学系编
  • 配合书中概念讲解 结合了自己的一些理解及思考

文章仅作为学习笔记,记录从0到1的一个过程

希望对您有所帮助,如有错误欢迎小伙伴指正~

我是 海轰ଘ(੭ˊᵕˋ)੭

如果您觉得写得可以的话,请点个赞吧

谢谢支持 ❤️