第四章相似矩阵-3.相似矩阵一、基本概念 1.1 定义设 $A$ 和 $B$ 都是 $n$ 阶方阵，如果存在一个可逆矩

一、基本概念

1.1 定义

设 $A$ 和 $B$ 都是 $n$ 阶方阵，如果存在一个可逆矩阵 $P$ ，使得：

B = P^{-1}AP

则称 $A$ 与 $B$ 相似，记作 $A \sim B$ 。矩阵 $P$ 称为相似变换矩阵。

1.2 几何意义

相似矩阵表示同一个线性变换在不同基下的矩阵表示
$A$ 在标准基下的变换， $B$ 在另一组基（由 $P$ 的列向量构成）下的变换
相似变换本质上就是换基操作

假设 $A$ 描述了某个线性变换 $T$ ， $P$ 是基变换矩阵，那么 $B = P^{-1}AP$ 描述了同一个变换 $T$ 在新的基下的表示。

1.2.1 直观理解：同一个变换的不同“视角”

这是理解相似矩阵最关键的一点。想象一个三维空间中的物体旋转。

矩阵 A（标准视角）：假设你站在标准的直角坐标系（x, y, z轴）下观察一个物体旋转。你记录下的变换矩阵是 A。
矩阵 B（新视角）：假设你的朋友站在另一个旋转过的坐标系（x', y', z'轴）下观察同一个物体做同一个旋转。他记录下的变换矩阵是 B。

虽然你们看到的数字（矩阵元素）完全不同，但你们描述的是同一个物理动作。

1.2.2 那个“P”是什么？

在公式 B = P⁻¹AP 中：

P 是翻译官（过渡矩阵/基变换矩阵）。
它的作用是把“你的坐标语言”翻译成“朋友的坐标语言”。

整个过程就像是一场“翻译游戏”：

输入：朋友给你一个向量（在他的坐标系下）。
P⁻¹ (翻译)：先把这个向量转换成你的坐标系下的样子。
A (做事)：用你的矩阵 A 对这个向量做变换（比如旋转90度）。
P (回译)：把变换后的结果，再翻译回朋友的坐标系。
输出：得到的结果，正好等于朋友直接用矩阵 B 算出来的结果。

所以，B 就是 A 在朋友眼里的样子。

1.2.3 为什么这很重要？（特征值的角色）

既然 A 和 B 只是“换了个马甲”，那么它们骨子里肯定有相同的东西。这就是特征值。

特征值（λ）：代表变换的本质属性（比如拉伸了多少倍，体积放大了多少倍）。无论你用哪个坐标系（A 还是 B）去测量，这个拉伸比例是客观存在的，不会变。
特征向量：代表变换的方向。虽然在不同坐标系下，特征向量的坐标数值变了（因为坐标系变了），但它们指向的物理方向是同一个。

1.2.4 翻译游戏的三步过程

A：标准坐标系下的变换（如旋转、缩放）
B：新坐标系下观察到的同一变换
P：坐标系转换矩阵（从新基到标准基）
P⁻¹：逆转换矩阵（从标准基到新基）

相似变换 $B = P^{-1}AP$ 实际上是一场精密的翻译游戏，必须严格遵循从右往左的顺序：

第一步（最右边）： $P \mathbf{x}_{new}$
- 操作：用P乘以新坐标向量
- 含义：翻译到标准基底
- 解释：P的列向量是新基底在标准基下的坐标，将"新坐标"转换为"标准坐标"
- 输入：新坐标系下的向量
- 输出：标准坐标系下的向量
第二步（中间）： $A ( \dots )$
- 操作：用A乘以第一步得到的标准向量
- 含义：执行变换
- 解释：A是标准基下的变换矩阵，在标准坐标系中完成实际变换
- 输入：标准坐标系下的向量
- 输出：变换后的标准坐标系下的向量
第三步（最左边）： $P^{-1} ( \dots )$
- 操作：用P⁻¹乘以第二步得到的变换结果
- 含义：翻译回新基底
- 解释：P⁻¹将"标准坐标"还原回"新坐标"
- 输入：变换后的标准坐标系下的向量
- 输出：变换后的新坐标系下的向量

二、相似矩阵的性质

2.1 核心不变性质（相似不变量）

性质	说明
特征多项式	$\lvert\lambda E - A\rvert = \lvert\lambda E - B\rvert$
特征值	$\lambda_A = \lambda_B$ 完全相同（包括重数）
迹	$\text{tr}(A) = \text{tr}(B)$
行列式	$\det(A) = \det(B)$
秩	$\text{rank}(A) = \text{rank}(B)$
最小多项式	相同
代数重数	每个特征值的代数重数相同
几何重数	每个特征值的几何重数相同（这是重要性质，但不一定总是相似变换的必然结果？实际上，对于相似矩阵，几何重数也相同，因为相似变换保持特征子空间的维数）

验证示例：设 $A = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix}$ ，取 $P = \begin{pmatrix} 1 & 1 \\ 1 & -1 \end{pmatrix}$ ，则：

P^{-1}AP = \begin{pmatrix} 3 & 0 \\ 0 & 1 \end{pmatrix} = B

$\det(A)=3$ ， $\det(B)=3$
$\text{tr}(A)=4$ ， $\text{tr}(B)=4$
特征值都是 3 和 1

2.2 等价关系

相似关系是一个等价关系（满足三条公理）：

自反性： $A \sim A$ （取 $P=E$ ）
对称性：若 $A \sim B$ ，则 $B \sim A$ （用 $P^{-1}$ 变换）
传递性：若 $A \sim B$ ， $B \sim C$ ，则 $A \sim C$

2.3 运算性质

若 $A \sim B$ ，则：

$A^k \sim B^k$ （对任意正整数 $k$ ）
$A^{-1} \sim B^{-1}$ （若可逆）
$f(A) \sim f(B)$ （对任意多项式 $f$ ）
$A^T \sim B^T$

$A^T \sim B^T$ 证明：若 $B = P^{-1}AP$ ，则 $B^T = P^T A^T (P^{-1})^T = (P^T) A^T (P^T)^{-1}$ ，所以 $A^T \sim B^T$ 成立。

三、相似矩阵 ↔ 特征值特征向量的核心关系（必考点）

我们从定义出发推一遍，你一下就懂。

已知

B=P^{-1}AP

1. 特征值相同

$A$ 和 $B$ 特征多项式一样：

|\lambda I-B|=|\lambda I-P^{-1}AP| =|P^{-1}(\lambda I-A)P| =|P^{-1}|\cdot|\lambda I-A|\cdot|P| =|\lambda I-A|

第一步：代入相似定义 $B=P^{-1}AP$

已知： $A$ 与 $B$ 相似，即

B=P^{-1}AP

直接把 $B$ 替换掉：

|\lambda I-B|=|\lambda I-P^{-1}AP|

这一步就是纯代入，没任何技巧。

第二步：变形 $\lambda I - P^{-1}AP = P^{-1}(\lambda I - A)P$

这是最关键、最容易懵的一步，我们慢慢推：

单位矩阵性质：

I = P^{-1}P

所以：

\lambda I = \lambda (P^{-1}P) = P^{-1}(\lambda I) P

这里把 $\lambda$ 塞进中间，是因为数乘可以随便挪位置。

原式：

\lambda I - P^{-1}AP = P^{-1}(\lambda I)P - P^{-1}AP

提取公因子 $P^{-1}$ （左）和 $P$ （右）：

= P^{-1}\big(\lambda I - A\big)P

所以行列式就变成：

|\lambda I-P^{-1}AP| = \big|P^{-1}(\lambda I - A)P\big|

第三步：行列式乘积性质 $|MN|=|M||N|$

行列式有一条核心性质：

乘积的行列式 = 行列式的乘积

对任意同阶方阵都成立：

|M N K|=|M|\cdot|N|\cdot|K|

这里把

M=P^{-1},\quad N=\lambda I-A,\quad K=P

直接套公式：

\big|P^{-1}(\lambda I - A)P\big| =|P^{-1}|\cdot|\lambda I - A|\cdot|P|

第四步：用 $|P^{-1}| = \dfrac1{|P|}$ 抵消

可逆矩阵满足：

|P^{-1}|=\frac1{|P|}

所以：

|P^{-1}|\cdot|P| = \frac1{|P|}\cdot|P| = 1

代回去：

|P^{-1}|\cdot|\lambda I-A|\cdot|P| = \big(|P^{-1}|\cdot|P|\big)\cdot|\lambda I-A| = 1\cdot|\lambda I-A| = |\lambda I-A|

整条链完整复盘（一句话版）

$B=P^{-1}AP$ ，直接代入
把 $\lambda I$ 拆成 $P^{-1}(\lambda I)P$ ，提取出 $P^{-1}(\dots)P$
行列式拆成三个行列式相乘
$|P^{-1}|$ 与 $|P|$ 抵消为 1
最后剩下： $|\lambda I - A|$

最终结论

\boxed{|\lambda I - B| = |\lambda I - A|}

也就是说： 相似矩阵的特征多项式完全相同，因此特征值完全相同。

如果你想，我可以再用一个具体2阶矩阵，把这一串式子真的代入数字算一遍，让你看到数值上确实相等。

所以：

\lambda_A = \lambda_B

2. 特征向量的关系

设 $\lambda$ 是公共特征值：

若 $\boldsymbol{x}$ 是 $A$ 对应 $\lambda$ 的特征向量

A\boldsymbol{x}=\lambda \boldsymbol{x}

令

\boldsymbol{y}=P^{-1}\boldsymbol{x}

则

B\boldsymbol{y}=P^{-1}AP \cdot P^{-1}\boldsymbol{x}=P^{-1}A\boldsymbol{x}=P^{-1}(\lambda \boldsymbol{x}) =\lambda P^{-1}\boldsymbol{x}=\lambda \boldsymbol{y}

所以：

$\boldsymbol{y}=P^{-1}\boldsymbol{x}$ 是 $B$ 对应 $\lambda$ 的特征向量

总结关系：

\boxed{ \begin{aligned} A&\sim B\\ \lambda_A&=\lambda_B\\ \boldsymbol{x}_B&=P^{-1}\boldsymbol{x}_A \end{aligned} }

相似矩阵特征值一样，但特征向量一般不一样，因为坐标系被 P 变换过了

A 的特征向量： $\boldsymbol{x}$
B 的特征向量： $\boldsymbol{y}=P^{-1}\boldsymbol{x}$

四、相似与对角化

4.1 可对角化定义

若方阵 $A$ 相似于一个对角矩阵 $\Lambda$ ，即存在可逆矩阵 $P$ 使：

P^{-1}AP = \Lambda = \begin{pmatrix} \lambda_1 & & 0 \\ & \ddots & \\ 0 & & \lambda_n \end{pmatrix}

则称 $A$ 可对角化。

4.2 对角化条件

充要条件： $A$ 有 $n$ 个线性无关的特征向量

等价表述：

每个特征值的几何重数 = 代数重数
特征向量构成一组基

4.3 对角化的步骤

求出 $A$ 的所有特征值 $\lambda_1, \dots, \lambda_k$
对每个 $\lambda_i$ ，求出 $(A-\lambda_i E)x=0$ 的基础解系
若所有基础解系合起来共 $n$ 个向量，则可对角化
构造 $P = [\alpha_1, \alpha_2, \dots, \alpha_n]$ （特征向量按列排列）
则 $P^{-1}AP = \text{diag}(\lambda_1, \lambda_2, \dots, \lambda_n)$

4.4 示例

设 $A = \begin{pmatrix} 0 & 1 \\ -2 & -3 \end{pmatrix}$

特征方程： $\begin{vmatrix} -\lambda & 1 \\ -2 & -3-\lambda \end{vmatrix} = \lambda(3+\lambda) + 2 = \lambda^2 + 3\lambda + 2 = 0$

得 $\lambda_1 = -1, \lambda_2 = -2$

求特征向量：

$\lambda_1=-1$ ： $(A+E)x=0 \Rightarrow \begin{pmatrix}1 & 1 \\ -2 & -2\end{pmatrix}x=0 \Rightarrow x_1+x_2=0$ ，取 $\alpha_1=\begin{pmatrix}1 \\ -1\end{pmatrix}$
$\lambda_2=-2$ ： $(A+2E)x=0 \Rightarrow \begin{pmatrix}2 & 1 \\ -2 & -1\end{pmatrix}x=0 \Rightarrow 2x_1+x_2=0$ ，取 $\alpha_2=\begin{pmatrix}1 \\ -2\end{pmatrix}$

$P = \begin{pmatrix}1 & 1 \\ -1 & -2\end{pmatrix}$ ，则 $P^{-1}AP = \begin{pmatrix}-1 & 0 \\ 0 & -2\end{pmatrix}$

五、不能对角化的情况——Jordan 标准形

5.1 为何不能对角化？

当某个特征值的几何重数 < 代数重数时，特征向量不够 $n$ 个，无法对角化。

典型例子：Jordan 块

J(\lambda) = \begin{pmatrix} \lambda & 1 & & 0 \\ & \lambda & 1 & \\ & & \ddots & \ddots \\ 0 & & & \lambda \end{pmatrix}

这个矩阵只有一个特征值 $\lambda$ ，但只有一个线性无关的特征向量（几何重数为 1）。

5.2 Jordan 标准形定理

定理：任何复方阵都相似于一个 Jordan 标准形：

J = \begin{pmatrix} J_{n_1}(\lambda_1) & & 0 \\ & \ddots & \\ 0 & & J_{n_k}(\lambda_k) \end{pmatrix}

其中每个 $J_{n_i}(\lambda_i)$ 是 Jordan 块。

5.3 示例

$A = \begin{pmatrix} 2 & 1 & 0 \\ 0 & 2 & 1 \\ 0 & 0 & 2 \end{pmatrix}$ 已是一个 Jordan 块，不能对角化。

六、特殊的相似——正交相似

6.1 定义

若存在正交矩阵 $Q$ （即 $Q^T = Q^{-1}$ ），使得：

B = Q^T A Q

则称 $A$ 与 $B$ 正交相似。

6.2 实对称矩阵的谱定理

核心结论：任意实对称矩阵必可正交对角化

即存在正交矩阵 $Q$ 使：

Q^T A Q = \Lambda = \text{diag}(\lambda_1, \dots, \lambda_n)

其中 $\lambda_i$ 是实数， $Q$ 的列是标准正交的特征向量。

6.3 对比

相似类型	变换矩阵	保持性质
一般相似	可逆矩阵 $P$	特征值、秩、迹、行列式
正交相似	正交矩阵 $Q$	上述 + 保持对称性、保持向量长度

七、相似矩阵的判定方法

7.1 充分必要条件（理论上）

$A \sim B$ 当且仅当它们有相同的：

特征多项式（或等价地，相同的特征值及代数重数）
并且每个特征值的几何重数也相同

对于复矩阵，等价于有相同的 Jordan 标准形。

7.2 实用判定

必要条件（不充分）：

特征值相同（计重数）
行列式相等
迹相等
秩相等

注意：这些条件都满足也未必相似！反例：

A = \begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix}, \quad B = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}

特征值：都是 1（2 重）
行列式：都是 1
迹：都是 2
秩：都是 2

但 $A$ 不能对角化（几何重数=1）， $B$ 已对角化（几何重数=2），所以不相似。

八、相似矩阵的应用

8.1 简化计算

计算 $A^k$ ：若 $A = P\Lambda P^{-1}$ ，则 $A^k = P\Lambda^k P^{-1}$
计算矩阵多项式： $f(A) = P f(\Lambda) P^{-1}$

8.2 微分方程

解 $\frac{d\mathbf{x}}{dt} = A\mathbf{x}$ ，令 $\mathbf{y} = P^{-1}\mathbf{x}$ ，则：

\frac{d\mathbf{y}}{dt} = \Lambda \mathbf{y}

每个方程独立，容易求解。

8.3 马尔可夫链

状态转移矩阵的相似对角化用于分析平稳分布。

8.4 量子力学

厄米矩阵（复对称）的相似对角化对应能量本征值问题。

九、总结对比

概念	核心含义	关键性质
特征值	伸缩倍数	$\det(A-\lambda E)=0$
特征向量	方向不变	$A\alpha=\lambda\alpha$
相似矩阵	同变换不同基	特征值相同， $B=P^{-1}AP$
对角化	找到最简基	需要 $n$ 个线性无关特征向量
Jordan 形	最简相似标准形	任何矩阵都相似于 Jordan 形

关键记忆点

相似 = 同一个线性变换在不同基下的“面孔”
相似不变量 = 特征多项式、特征值、迹、行列式、秩、最小多项式
可对角化 ⇔ 有 $n$ 个线性无关特征向量 ⇔ 每个特征值的几何重数 = 代数重数
实对称矩阵 = 最强的一类：必可正交对角化，特征值全实数
判定不相似：若上述任何不变量不同，必不相似；但都相同也未必相似（反例：Jordan 块与对角矩阵）

第四章相似矩阵-3.相似矩阵