第四章相似矩阵-3.相似矩阵

5 阅读2分钟

一、基本概念

1.1 定义

AABB 都是 nn 阶方阵,如果存在一个可逆矩阵 PP,使得:

B=P1APB = P^{-1}AP

则称 AABB 相似,记作 ABA \sim B。矩阵 PP 称为相似变换矩阵

1.2 几何意义

  • 相似矩阵表示同一个线性变换在不同基下的矩阵表示
  • AA 在标准基下的变换,BB 在另一组基(由 PP 的列向量构成)下的变换
  • 相似变换本质上就是换基操作

假设 AA 描述了某个线性变换 TTPP 是基变换矩阵,那么 B=P1APB = P^{-1}AP 描述了同一个变换 TT 在新的基下的表示。

1.2.1 直观理解:同一个变换的不同“视角”

这是理解相似矩阵最关键的一点。想象一个三维空间中的物体旋转。

  • 矩阵 A(标准视角):假设你站在标准的直角坐标系(x, y, z轴)下观察一个物体旋转。你记录下的变换矩阵是 A
  • 矩阵 B(新视角):假设你的朋友站在另一个旋转过的坐标系(x', y', z'轴)下观察同一个物体做同一个旋转。他记录下的变换矩阵是 B

虽然你们看到的数字(矩阵元素)完全不同,但你们描述的是同一个物理动作

1.2.2 那个“P”是什么?

在公式 B = P⁻¹AP 中:

  • P翻译官(过渡矩阵/基变换矩阵)。
  • 它的作用是把“你的坐标语言”翻译成“朋友的坐标语言”。

整个过程就像是一场“翻译游戏”:

  1. 输入:朋友给你一个向量(在他的坐标系下)。
  2. P⁻¹ (翻译):先把这个向量转换成你的坐标系下的样子。
  3. A (做事):用你的矩阵 A 对这个向量做变换(比如旋转90度)。
  4. P (回译):把变换后的结果,再翻译回朋友的坐标系。
  5. 输出:得到的结果,正好等于朋友直接用矩阵 B 算出来的结果。

所以,B 就是 A 在朋友眼里的样子

1.2.3 为什么这很重要?(特征值的角色)

既然 A 和 B 只是“换了个马甲”,那么它们骨子里肯定有相同的东西。这就是特征值

  • 特征值(λ):代表变换的本质属性(比如拉伸了多少倍,体积放大了多少倍)。无论你用哪个坐标系(A 还是 B)去测量,这个拉伸比例是客观存在的,不会变。
  • 特征向量:代表变换的方向。虽然在不同坐标系下,特征向量的坐标数值变了(因为坐标系变了),但它们指向的物理方向是同一个。
1.2.4 翻译游戏的三步过程
  • A:标准坐标系下的变换(如旋转、缩放)
  • B:新坐标系下观察到的同一变换
  • P:坐标系转换矩阵(从新基到标准基)
  • P⁻¹:逆转换矩阵(从标准基到新基)

相似变换 B=P1APB = P^{-1}AP 实际上是一场精密的翻译游戏,必须严格遵循从右往左的顺序:

  1. 第一步(最右边):PxnewP \mathbf{x}_{new}

    • 操作:用P乘以新坐标向量
    • 含义翻译到标准基底
    • 解释:P的列向量是新基底在标准基下的坐标,将"新坐标"转换为"标准坐标"
    • 输入:新坐标系下的向量
    • 输出标准坐标系下的向量
  2. 第二步(中间):A()A ( \dots )

    • 操作:用A乘以第一步得到的标准向量
    • 含义执行变换
    • 解释:A是标准基下的变换矩阵,在标准坐标系中完成实际变换
    • 输入:标准坐标系下的向量
    • 输出变换后的标准坐标系下的向量
  3. 第三步(最左边):P1()P^{-1} ( \dots )

    • 操作:用P⁻¹乘以第二步得到的变换结果
    • 含义翻译回新基底
    • 解释:P⁻¹将"标准坐标"还原回"新坐标"
    • 输入:变换后的标准坐标系下的向量
    • 输出变换后的新坐标系下的向量

二、相似矩阵的性质

2.1 核心不变性质(相似不变量)

性质说明
特征多项式λEA=λEB\lvert\lambda E - A\rvert = \lvert\lambda E - B\rvert
特征值λA=λB\lambda_A = \lambda_B 完全相同(包括重数)
tr(A)=tr(B)\text{tr}(A) = \text{tr}(B)
行列式det(A)=det(B)\det(A) = \det(B)
rank(A)=rank(B)\text{rank}(A) = \text{rank}(B)
最小多项式相同
代数重数每个特征值的代数重数相同
几何重数每个特征值的几何重数相同(这是重要性质,但不一定总是相似变换的必然结果?实际上,对于相似矩阵,几何重数也相同,因为相似变换保持特征子空间的维数)

验证示例: 设 A=(2112)A = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix},取 P=(1111)P = \begin{pmatrix} 1 & 1 \\ 1 & -1 \end{pmatrix},则:

P1AP=(3001)=BP^{-1}AP = \begin{pmatrix} 3 & 0 \\ 0 & 1 \end{pmatrix} = B
  • det(A)=3\det(A)=3det(B)=3\det(B)=3
  • tr(A)=4\text{tr}(A)=4tr(B)=4\text{tr}(B)=4
  • 特征值都是 3 和 1

2.2 等价关系

相似关系是一个等价关系(满足三条公理):

  1. 自反性AAA \sim A(取 P=EP=E
  2. 对称性:若 ABA \sim B,则 BAB \sim A(用 P1P^{-1} 变换)
  3. 传递性:若 ABA \sim BBCB \sim C,则 ACA \sim C

2.3 运算性质

ABA \sim B,则:

  • AkBkA^k \sim B^k(对任意正整数 kk
  • A1B1A^{-1} \sim B^{-1}(若可逆)
  • f(A)f(B)f(A) \sim f(B)(对任意多项式 ff
  • ATBTA^T \sim B^T

ATBTA^T \sim B^T证明:若 B=P1APB = P^{-1}AP,则 BT=PTAT(P1)T=(PT)AT(PT)1B^T = P^T A^T (P^{-1})^T = (P^T) A^T (P^T)^{-1},所以 ATBTA^T \sim B^T 成立。

三、相似矩阵 ↔ 特征值特征向量 的核心关系(必考点)

我们从定义出发推一遍,你一下就懂。

已知

B=P1APB=P^{-1}AP

1. 特征值相同

AABB 特征多项式一样:

λIB=λIP1AP=P1(λIA)P=P1λIAP=λIA|\lambda I-B|=|\lambda I-P^{-1}AP| =|P^{-1}(\lambda I-A)P| =|P^{-1}|\cdot|\lambda I-A|\cdot|P| =|\lambda I-A|

第一步:代入相似定义 B=P1APB=P^{-1}AP

已知: AABB 相似,即

B=P1APB=P^{-1}AP

直接把 BB 替换掉:

λIB=λIP1AP|\lambda I-B|=|\lambda I-P^{-1}AP|

这一步就是纯代入,没任何技巧。


第二步:变形 λIP1AP=P1(λIA)P\lambda I - P^{-1}AP = P^{-1}(\lambda I - A)P

这是最关键、最容易懵的一步,我们慢慢推:

  1. 单位矩阵性质:
I=P1PI = P^{-1}P
  1. 所以:
λI=λ(P1P)=P1(λI)P\lambda I = \lambda (P^{-1}P) = P^{-1}(\lambda I) P

这里把 λ\lambda 塞进中间,是因为数乘可以随便挪位置

  1. 原式:
λIP1AP=P1(λI)PP1AP\lambda I - P^{-1}AP = P^{-1}(\lambda I)P - P^{-1}AP
  1. 提取公因子 P1P^{-1}(左)和 PP(右):
=P1(λIA)P= P^{-1}\big(\lambda I - A\big)P

所以行列式就变成:

λIP1AP=P1(λIA)P|\lambda I-P^{-1}AP| = \big|P^{-1}(\lambda I - A)P\big|

第三步:行列式乘积性质 MN=MN|MN|=|M||N|

行列式有一条核心性质:

乘积的行列式 = 行列式的乘积

对任意同阶方阵都成立:

MNK=MNK|M N K|=|M|\cdot|N|\cdot|K|

这里把

M=P1,N=λIA,K=PM=P^{-1},\quad N=\lambda I-A,\quad K=P

直接套公式:

P1(λIA)P=P1λIAP\big|P^{-1}(\lambda I - A)P\big| =|P^{-1}|\cdot|\lambda I - A|\cdot|P|

第四步:用 P1=1P|P^{-1}| = \dfrac1{|P|} 抵消

可逆矩阵满足:

P1=1P|P^{-1}|=\frac1{|P|}

所以:

P1P=1PP=1|P^{-1}|\cdot|P| = \frac1{|P|}\cdot|P| = 1

代回去:

P1λIAP=(P1P)λIA=1λIA=λIA|P^{-1}|\cdot|\lambda I-A|\cdot|P| = \big(|P^{-1}|\cdot|P|\big)\cdot|\lambda I-A| = 1\cdot|\lambda I-A| = |\lambda I-A|

整条链完整复盘(一句话版)

  1. B=P1APB=P^{-1}AP,直接代入
  2. λI\lambda I 拆成 P1(λI)PP^{-1}(\lambda I)P,提取出 P1()PP^{-1}(\dots)P
  3. 行列式拆成三个行列式相乘
  4. P1|P^{-1}|P|P| 抵消为 1
  5. 最后剩下:λIA|\lambda I - A|

最终结论

λIB=λIA\boxed{|\lambda I - B| = |\lambda I - A|}

也就是说: 相似矩阵的特征多项式完全相同,因此特征值完全相同。

如果你想,我可以再用一个具体2阶矩阵,把这一串式子真的代入数字算一遍,让你看到数值上确实相等。

所以:

λA=λB\lambda_A = \lambda_B

2. 特征向量的关系

λ\lambda 是公共特征值:

  • x\boldsymbol{x}AA 对应 λ\lambda 的特征向量
Ax=λxA\boldsymbol{x}=\lambda \boldsymbol{x}

y=P1x\boldsymbol{y}=P^{-1}\boldsymbol{x}

By=P1APP1x=P1Ax=P1(λx)=λP1x=λyB\boldsymbol{y}=P^{-1}AP \cdot P^{-1}\boldsymbol{x}=P^{-1}A\boldsymbol{x}=P^{-1}(\lambda \boldsymbol{x}) =\lambda P^{-1}\boldsymbol{x}=\lambda \boldsymbol{y}

所以:

  • y=P1x\boldsymbol{y}=P^{-1}\boldsymbol{x}BB 对应 λ\lambda 的特征向量

总结关系:

ABλA=λBxB=P1xA\boxed{ \begin{aligned} A&\sim B\\ \lambda_A&=\lambda_B\\ \boldsymbol{x}_B&=P^{-1}\boldsymbol{x}_A \end{aligned} }

相似矩阵特征值一样,但特征向量一般不一样,因为坐标系被 P 变换过了

  • A 的特征向量:x\boldsymbol{x}
  • B 的特征向量:y=P1x\boldsymbol{y}=P^{-1}\boldsymbol{x}

四、相似与对角化

4.1 可对角化定义

若方阵 AA 相似于一个对角矩阵 Λ\Lambda,即存在可逆矩阵 PP 使:

P1AP=Λ=(λ100λn)P^{-1}AP = \Lambda = \begin{pmatrix} \lambda_1 & & 0 \\ & \ddots & \\ 0 & & \lambda_n \end{pmatrix}

则称 AA 可对角化

4.2 对角化条件

充要条件AAnn 个线性无关的特征向量

等价表述:

  • 每个特征值的几何重数 = 代数重数
  • 特征向量构成一组基

4.3 对角化的步骤

  1. 求出 AA 的所有特征值 λ1,,λk\lambda_1, \dots, \lambda_k
  2. 对每个 λi\lambda_i,求出 (AλiE)x=0(A-\lambda_i E)x=0 的基础解系
  3. 若所有基础解系合起来共 nn 个向量,则可对角化
  4. 构造 P=[α1,α2,,αn]P = [\alpha_1, \alpha_2, \dots, \alpha_n](特征向量按列排列)
  5. P1AP=diag(λ1,λ2,,λn)P^{-1}AP = \text{diag}(\lambda_1, \lambda_2, \dots, \lambda_n)

4.4 示例

A=(0123)A = \begin{pmatrix} 0 & 1 \\ -2 & -3 \end{pmatrix}

特征方程:λ123λ=λ(3+λ)+2=λ2+3λ+2=0\begin{vmatrix} -\lambda & 1 \\ -2 & -3-\lambda \end{vmatrix} = \lambda(3+\lambda) + 2 = \lambda^2 + 3\lambda + 2 = 0

λ1=1,λ2=2\lambda_1 = -1, \lambda_2 = -2

求特征向量:

  • λ1=1\lambda_1=-1(A+E)x=0(1122)x=0x1+x2=0(A+E)x=0 \Rightarrow \begin{pmatrix}1 & 1 \\ -2 & -2\end{pmatrix}x=0 \Rightarrow x_1+x_2=0,取 α1=(11)\alpha_1=\begin{pmatrix}1 \\ -1\end{pmatrix}
  • λ2=2\lambda_2=-2(A+2E)x=0(2121)x=02x1+x2=0(A+2E)x=0 \Rightarrow \begin{pmatrix}2 & 1 \\ -2 & -1\end{pmatrix}x=0 \Rightarrow 2x_1+x_2=0,取 α2=(12)\alpha_2=\begin{pmatrix}1 \\ -2\end{pmatrix}

P=(1112)P = \begin{pmatrix}1 & 1 \\ -1 & -2\end{pmatrix},则 P1AP=(1002)P^{-1}AP = \begin{pmatrix}-1 & 0 \\ 0 & -2\end{pmatrix}

五、不能对角化的情况——Jordan 标准形

5.1 为何不能对角化?

当某个特征值的几何重数 < 代数重数时,特征向量不够 nn 个,无法对角化。

典型例子:Jordan 块

J(λ)=(λ10λ10λ)J(\lambda) = \begin{pmatrix} \lambda & 1 & & 0 \\ & \lambda & 1 & \\ & & \ddots & \ddots \\ 0 & & & \lambda \end{pmatrix}

这个矩阵只有一个特征值 λ\lambda,但只有一个线性无关的特征向量(几何重数为 1)。

5.2 Jordan 标准形定理

定理:任何复方阵都相似于一个 Jordan 标准形:

J=(Jn1(λ1)00Jnk(λk))J = \begin{pmatrix} J_{n_1}(\lambda_1) & & 0 \\ & \ddots & \\ 0 & & J_{n_k}(\lambda_k) \end{pmatrix}

其中每个 Jni(λi)J_{n_i}(\lambda_i) 是 Jordan 块。

5.3 示例

A=(210021002)A = \begin{pmatrix} 2 & 1 & 0 \\ 0 & 2 & 1 \\ 0 & 0 & 2 \end{pmatrix} 已是一个 Jordan 块,不能对角化。

六、特殊的相似——正交相似

6.1 定义

若存在正交矩阵 QQ(即 QT=Q1Q^T = Q^{-1}),使得:

B=QTAQB = Q^T A Q

则称 AABB 正交相似

6.2 实对称矩阵的谱定理

核心结论:任意实对称矩阵必可正交对角化

即存在正交矩阵 QQ 使:

QTAQ=Λ=diag(λ1,,λn)Q^T A Q = \Lambda = \text{diag}(\lambda_1, \dots, \lambda_n)

其中 λi\lambda_i 是实数,QQ 的列是标准正交的特征向量。

6.3 对比

相似类型变换矩阵保持性质
一般相似可逆矩阵 PP特征值、秩、迹、行列式
正交相似正交矩阵 QQ上述 + 保持对称性、保持向量长度

七、相似矩阵的判定方法

7.1 充分必要条件(理论上)

ABA \sim B 当且仅当它们有相同的:

  • 特征多项式(或等价地,相同的特征值及代数重数)
  • 并且每个特征值的几何重数也相同

对于复矩阵,等价于有相同的 Jordan 标准形。

7.2 实用判定

必要条件(不充分):

  • 特征值相同(计重数)
  • 行列式相等
  • 迹相等
  • 秩相等

注意:这些条件都满足也未必相似!反例:

A=(1101),B=(1001)A = \begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix}, \quad B = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}
  • 特征值:都是 1(2 重)
  • 行列式:都是 1
  • 迹:都是 2
  • 秩:都是 2

AA 不能对角化(几何重数=1),BB 已对角化(几何重数=2),所以不相似。

八、相似矩阵的应用

8.1 简化计算

  • 计算 AkA^k:若 A=PΛP1A = P\Lambda P^{-1},则 Ak=PΛkP1A^k = P\Lambda^k P^{-1}
  • 计算矩阵多项式:f(A)=Pf(Λ)P1f(A) = P f(\Lambda) P^{-1}

8.2 微分方程

dxdt=Ax\frac{d\mathbf{x}}{dt} = A\mathbf{x},令 y=P1x\mathbf{y} = P^{-1}\mathbf{x},则:

dydt=Λy\frac{d\mathbf{y}}{dt} = \Lambda \mathbf{y}

每个方程独立,容易求解。

8.3 马尔可夫链

状态转移矩阵的相似对角化用于分析平稳分布。

8.4 量子力学

厄米矩阵(复对称)的相似对角化对应能量本征值问题。

九、总结对比

概念核心含义关键性质
特征值伸缩倍数det(AλE)=0\det(A-\lambda E)=0
特征向量方向不变Aα=λαA\alpha=\lambda\alpha
相似矩阵同变换不同基特征值相同,B=P1APB=P^{-1}AP
对角化找到最简基需要 nn 个线性无关特征向量
Jordan 形最简相似标准形任何矩阵都相似于 Jordan 形

关键记忆点

  1. 相似 = 同一个线性变换在不同基下的“面孔”
  2. 相似不变量 = 特征多项式、特征值、迹、行列式、秩、最小多项式
  3. 可对角化 ⇔ 有 nn 个线性无关特征向量 ⇔ 每个特征值的几何重数 = 代数重数
  4. 实对称矩阵 = 最强的一类:必可正交对角化,特征值全实数
  5. 判定不相似:若上述任何不变量不同,必不相似;但都相同也未必相似(反例:Jordan 块与对角矩阵)