第四章相似矩阵-1.点积

0 阅读3分钟

下面来系统讲解向量的内积、长度(模)和正交性。这是线性代数中从“代数运算”走向“几何度量”的关键一步,也是理解正交矩阵、最小二乘法、傅里叶级数等高级内容的基础。


一、内积(点积 / 数量积)

1. 定义

对于两个 n 维实向量
a=(a1,a2,,an)T\mathbf{a} = (a_1, a_2, \dots, a_n)^T
b=(b1,b2,,bn)T\mathbf{b} = (b_1, b_2, \dots, b_n)^T
它们的内积定义为:

ab=aTb=a1b1+a2b2++anbn\mathbf{a} \cdot \mathbf{b} = \mathbf{a}^T \mathbf{b} = a_1 b_1 + a_2 b_2 + \dots + a_n b_n

结果是一个标量(实数)

内积公式来源:

  1. 投影即线性变换
    将二维向量正交投影到过原点的倾斜数轴(由单位向量 u^\hat{u} 定向)上,得到一个标量。该操作满足线性性(等距点投影后仍等距 + 叠加性),故是R2\mathbb{R}^2R\mathbb{R} 的线性泛函

    • 某一条特定直线等间隔分布的一组点,将这组点正交投影到目标数轴(如倾斜直线)上后,投影点在该数轴上的标量坐标仍保持等间隔。
    • 原因:投影到直线的变换是线性泛函(标量输出)
  2. 投影变换的矩阵
    任何线性变换都可以用一个矩阵表示。对于投影到单位向量 u^\hat{u} 所在直线的变换,它的矩阵是一个 1×21 \times 2 矩阵。通过对称性可以推出:单位向量 i^\hat{i} 投影后的值等于 u^\hat{u} 的横坐标,单位向量 j^\hat{j} 投影后的值等于 u^\hat{u} 的纵坐标。因此,该投影变换的矩阵就是 [uxuy]\begin{bmatrix} u_x & u_y \end{bmatrix}

  3. 矩阵乘法与点积的等价性
    对于任意向量 v=[vxvy]\mathbf{v} = \begin{bmatrix} v_x \\ v_y \end{bmatrix},应用投影变换即为:

[uxuy][vxvy]=uxvx+uyvy=u^v. \begin{bmatrix} u_x & u_y \end{bmatrix} \begin{bmatrix} v_x \\ v_y \end{bmatrix} = u_x v_x + u_y v_y = \hat{u} \cdot \mathbf{v}.
  1. 对称性破局:找到变换矩阵
    • 求该变换的 1×21 \times 2 矩阵,需计算标准基 i^,j^\hat{i}, \hat{j} 投影后的数值(即矩阵元素)。
    • 关键洞察:因 i^\hat{i}u^\hat{u} 均为单位向量,i^\hat{i}u^\hat{u} 方向的投影长度 =cosθ= \cos\theta;而 u^\hat{u}xx 轴(i^\hat{i} 方向)的投影长度 =u^x=cosθ= \hat{u}_x = \cos\theta。二者数值相等!
    • 同理:j^\hat{j} 投影值 =u^y= \hat{u}_y
      → 变换矩阵即为 [u^xu^y][\hat{u}_x \quad \hat{u}_y]u^\hat{u} 的转置)。

image.png

  1. 代数与几何的汇合
    对任意向量 v=(vx,vy)\vec{v} = (v_x, v_y)

    投影结果=[u^xu^y][vxvy]=u^xvx+u^yvy=u^v\text{投影结果} = [\hat{u}_x \quad \hat{u}_y] \begin{bmatrix} v_x \\ v_y \end{bmatrix} = \hat{u}_x v_x + \hat{u}_y v_y = \hat{u} \cdot \vec{v}

    点积的坐标运算,本质就是执行该投影变换。当 u^\hat{u} 是单位向量时,结果即为 v\vec{v}u^\hat{u} 方向的带符号投影长度

  2. 推广至非单位向量
    u=ku^\vec{u} = k \hat{u}k=uk = \|\vec{u}\|),则变换矩阵缩放为 [ku^xku^y][k\hat{u}_x \quad k\hat{u}_y]

    vu=k(u^v)=(投影到 u^ 方向的长度)×u\vec{v} \cdot \vec{u} = k (\hat{u} \cdot \vec{v}) = (\text{投影到 } \hat{u} \text{ 方向的长度}) \times \|\vec{u}\|

    这正是几何定义 vucosθ\|\vec{v}\| \|\vec{u}\| \cos\theta 的由来。


💡 深层启示:对偶性(Duality)

  • 核心结论:任何从 Rn\mathbb{R}^nR\mathbb{R} 的线性变换(线性泛函),唯一对应 Rn\mathbb{R}^n 中的一个向量 w\vec{w},使得该变换等价于“与 w\vec{w} 做点积”。
  • 数学本质:这是 Riesz 表示定理 在欧氏空间的特例——内积空间中,每个连续线性泛函均可由内积表示。
  • 几何直觉

    “向量 w\vec{w} 是该线性变换的‘化身’:你无需记住变换规则,只需记住这个向量,点积即完成变换。”


✅ 为何此论证如此有力?

传统困惑本论证的解答
“为何坐标相乘相加能代表投影?”因投影是线性变换 → 必有矩阵表示 → 对称性证明该矩阵恰为 u^T\hat{u}^T → 矩阵乘法 = 点积
“点积的对称性(ab=ba\vec{a}\cdot\vec{b}=\vec{b}\cdot\vec{a})为何成立?”因“a\vec{a} 投影到 b\vec{b} 方向 × b\|\vec{b}\|” 与 “b\vec{b} 投影到 a\vec{a} 方向 × a\|\vec{a}\|” 数值相等(均由 abcosθ\|\vec{a}\|\|\vec{b}\|\cos\theta 决定)
“点积与线性代数其他概念有何联系?”揭示了线性泛函 ↔ 向量的对偶关系,为理解梯度、伴随算子、核方法等奠定直觉基础

🌰 一句话总结

点积的代数形式(坐标相乘相加)并非人为规定,而是“正交投影”这一几何操作在线性代数框架下的必然代数表达;而“对偶性”告诉我们:在欧氏空间中,每一个将向量映射为标量的线性规则,都藏在一个向量里——你与它点积,便执行了该规则

2. 几何意义(二维/三维)

在二维或三维空间中,内积还有另一个等价形式:

ab=abcosθ\mathbf{a} \cdot \mathbf{b} = \|\mathbf{a}\| \, \|\mathbf{b}\| \cos\theta

其中 θ\theta 是两个向量的夹角。

物理直觉:内积 = 一个向量在另一个向量方向上的投影长度 × 另一个向量的长度。

3. 内积的基本性质(实向量)

对任意向量 a,b,c\mathbf{a},\mathbf{b},\mathbf{c} 和实数 kk

性质公式
对称性ab=ba\mathbf{a}\cdot\mathbf{b} = \mathbf{b}\cdot\mathbf{a}
线性性(ka)b=k(ab)(k\mathbf{a})\cdot\mathbf{b} = k(\mathbf{a}\cdot\mathbf{b})
(a+b)c=ac+bc(\mathbf{a}+\mathbf{b})\cdot\mathbf{c} = \mathbf{a}\cdot\mathbf{c} + \mathbf{b}\cdot\mathbf{c}
正定性aa0\mathbf{a}\cdot\mathbf{a} \ge 0,且 aa=0    a=0\mathbf{a}\cdot\mathbf{a}=0 \iff \mathbf{a}=0

二、向量的长度(模 / 范数)

1. 定义

由内积自然诱导出向量的长度(也称 2-范数):

a=aa=a12+a22++an2\|\mathbf{a}\| = \sqrt{\mathbf{a}\cdot\mathbf{a}} = \sqrt{a_1^2 + a_2^2 + \dots + a_n^2}

几何上就是通常的欧几里得距离

2. 单位向量

长度为 1 的向量称为单位向量
对于任意非零向量 a\mathbf{a},可以将其单位化

u=aa\mathbf{u} = \frac{\mathbf{a}}{\|\mathbf{a}\|}

3. 长度的基本性质

  • 非负性:a0\|\mathbf{a}\| \ge 0,且 a=0    a=0\|\mathbf{a}\|=0 \iff \mathbf{a}=0
  • 齐次性:ka=ka\|k\mathbf{a}\| = |k| \cdot \|\mathbf{a}\|
  • 三角不等式a+ba+b\|\mathbf{a}+\mathbf{b}\| \le \|\mathbf{a}\| + \|\mathbf{b}\|

4. 柯西-施瓦茨不等式(非常重要的桥梁)

abab|\mathbf{a}\cdot\mathbf{b}| \le \|\mathbf{a}\| \, \|\mathbf{b}\|

等号成立     \iff a\mathbf{a}b\mathbf{b} 线性相关(共线)。

这个不等式把内积长度联系了起来。


三、正交性

1. 定义

两个向量 a,b\mathbf{a}, \mathbf{b} 称为正交,如果:

ab=0\mathbf{a}\cdot\mathbf{b} = 0

记作 ab\mathbf{a} \perp \mathbf{b}

几何上:夹角为 90°(或 270°)。

2. 零向量的特殊情况

  • 零向量与任何向量正交:0b=0\mathbf{0}\cdot\mathbf{b}=0
  • 但讨论“非零向量正交组”时更有意义。

3. 正交向量组

一组向量 v1,,vm\mathbf{v}_1,\dots,\mathbf{v}_m,如果两两正交,即:

vivj=0(ij)\mathbf{v}_i \cdot \mathbf{v}_j = 0 \quad (i \ne j)

则称为正交向量组

重要定理:正交组必线性无关

证明思路:假设 k1v1++kmvm=0k_1\mathbf{v}_1+\dots+k_m\mathbf{v}_m=0,两边与 vi\mathbf{v}_i 做内积,利用正交性得到 kivi2=0k_i\|\mathbf{v}_i\|^2=0,故 ki=0k_i=0

4. 标准正交基

如果正交组中每个向量的长度都为 1,则称为标准正交基(或单位正交基)。

二维标准正交基例子:

e1=(1,0)T,e2=(0,1)T\mathbf{e}_1=(1,0)^T,\quad \mathbf{e}_2=(0,1)^T

四、勾股定理与投影(重要应用)

1. 正交情况下的勾股定理

ab\mathbf{a} \perp \mathbf{b},则:

a+b2=a2+b2\|\mathbf{a}+\mathbf{b}\|^2 = \|\mathbf{a}\|^2 + \|\mathbf{b}\|^2

(证明:展开 a+b2=(a+b)(a+b)=a2+b2+2ab\|\mathbf{a}+\mathbf{b}\|^2 = (\mathbf{a}+\mathbf{b})\cdot(\mathbf{a}+\mathbf{b}) = \|\mathbf{a}\|^2 + \|\mathbf{b}\|^2 + 2\mathbf{a}\cdot\mathbf{b},正交项为零。)

2. 向量在另一个向量上的投影

a\mathbf{a}b\mathbf{b} 上的投影向量

projba=abb2b\text{proj}_{\mathbf{b}}\mathbf{a} = \frac{\mathbf{a}\cdot\mathbf{b}}{\|\mathbf{b}\|^2} \, \mathbf{b}
  • 标量投影长度:acosθ=abb\|\mathbf{a}\|\cos\theta = \frac{\mathbf{a}\cdot\mathbf{b}}{\|\mathbf{b}\|}
  • 投影向量 = 标量投影 × b\mathbf{b} 方向的单位向量。

五、总结对比表

概念定义关键性质 / 公式
内积ab=aibi\mathbf{a}\cdot\mathbf{b} = \sum a_i b_i对称、线性、正定
长度a=aa\|\mathbf{a}\| = \sqrt{\mathbf{a}\cdot\mathbf{a}}三角不等式、齐次性
正交ab=0\mathbf{a}\cdot\mathbf{b}=0零向量与任何向量正交
柯西-施瓦茨$\mathbf{a}\cdot\mathbf{b}\le |\mathbf{a}||\mathbf{b}|$等号 ↔ 共线
投影abb2b\frac{\mathbf{a}\cdot\mathbf{b}}{\|\mathbf{b}\|^2}\mathbf{b}分解出正交分量
正交组两两内积为零⇒ 线性无关
标准正交基正交 + 单位长最方便的坐标系

这个问题问得非常到位——它正是从“背公式”走向“理解几何”的关键一步。

投影计算

已知两个向量 a\mathbf{a}b\mathbf{b}b0\mathbf{b} \neq \mathbf{0})。

我们想找到 a\mathbf{a}b\mathbf{b} 方向上的投影向量,记作 p\mathbf{p}

这个 p\mathbf{p} 必须满足两个条件:

  1. 共线p\mathbf{p}b\mathbf{b} 平行,即 p=tb\mathbf{p} = t \mathbf{b},其中 tt 是一个实数(标量)。
  2. 垂直ap\mathbf{a} - \mathbf{p}b\mathbf{b} 垂直,即 (atb)b(\mathbf{a} - t\mathbf{b}) \perp \mathbf{b}

几何直观:从 a\mathbf{a} 的末端向 b\mathbf{b} 所在直线作垂线,垂足对应的向量就是投影。


用正交条件解出 tt

把“垂直”写成内积方程:

(atb)b=0(\mathbf{a} - t\mathbf{b}) \cdot \mathbf{b} = 0

展开:

abt(bb)=0\mathbf{a}\cdot\mathbf{b} - t\,(\mathbf{b}\cdot\mathbf{b}) = 0
t=abbbt = \frac{\mathbf{a}\cdot\mathbf{b}}{\mathbf{b}\cdot\mathbf{b}}

bb=b2\mathbf{b}\cdot\mathbf{b} = \|\mathbf{b}\|^2

于是:

p=tb=abb2b\mathbf{p} = t\mathbf{b} = \frac{\mathbf{a}\cdot\mathbf{b}}{\|\mathbf{b}\|^2}\,\mathbf{b}

推导完成。这里没有任何技巧,完全由“垂直条件”自然导出。


几何直觉(为什么除的是 b2\|\mathbf{b}\|^2 而不是 b\|\mathbf{b}\|?)

很多人会疑惑:分子是 ab=abcosθ\mathbf{a}\cdot\mathbf{b} = \|\mathbf{a}\|\|\mathbf{b}\|\cos\theta,分母是 b2\|\mathbf{b}\|^2,所以:

t=abcosθb2=acosθbt = \frac{\|\mathbf{a}\|\|\mathbf{b}\|\cos\theta}{\|\mathbf{b}\|^2} = \frac{\|\mathbf{a}\|\cos\theta}{\|\mathbf{b}\|}

因此:

p=(acosθ)bb\mathbf{p} = \left( \|\mathbf{a}\|\cos\theta \right) \cdot \frac{\mathbf{b}}{\|\mathbf{b}\|}

解读:

  • acosθ\|\mathbf{a}\|\cos\thetaa\mathbf{a}b\mathbf{b} 方向上的有向长度(标量投影)。
  • bb\frac{\mathbf{b}}{\|\mathbf{b}\|}b\mathbf{b} 方向的单位向量

所以投影向量 = (标量投影长度)×(单位方向向量)

b2\|\mathbf{b}\|^2 的原因:
分子里已经有一个 b\|\mathbf{b}\|(来自 ab\mathbf{a}\cdot\mathbf{b} 的定义),我们只需要再除一个 b\|\mathbf{b}\| 就能把单位向量提出来,但公式里写的是 b2\|\mathbf{b}\|^2,这是因为我们保留了 b\mathbf{b} 本身而不是单位向量。


两种等价写法(都很重要)

写法含义
abb2b\displaystyle \frac{\mathbf{a}\cdot\mathbf{b}}{\|\mathbf{b}\|^2}\,\mathbf{b}直接由垂直条件推出,便于计算
(acosθ)bb\displaystyle \bigl( \|\mathbf{a}\|\cos\theta \bigr) \,\frac{\mathbf{b}}{\|\mathbf{b}\|}突出几何意义:长度 × 单位方向

两者完全等价。


一个具体数值例子(消除抽象感)

a=(4,0)\mathbf{a} = (4, 0)b=(1,2)\mathbf{b} = (1, 2)

  • b2=12+22=5\|\mathbf{b}\|^2 = 1^2+2^2 = 5
  • ab=4×1+0×2=4\mathbf{a}\cdot\mathbf{b} = 4\times1 + 0\times2 = 4
  • t=45=0.8t = \frac{4}{5} = 0.8
  • p=0.8×(1,2)=(0.8,1.6)\mathbf{p} = 0.8 \times (1,2) = (0.8, 1.6)

验证垂直:

ap=(40.8, 01.6)=(3.2,1.6)\mathbf{a} - \mathbf{p} = (4-0.8,\ 0-1.6) = (3.2, -1.6)
(3.2,1.6)(1,2)=3.23.2=0(3.2, -1.6) \cdot (1,2) = 3.2 - 3.2 = 0 \quad \text{✓}

总结一句话

投影向量公式 abb2b\frac{\mathbf{a}\cdot\mathbf{b}}{\|\mathbf{b}\|^2}\mathbf{b} 的唯一来源是:要求 a\mathbf{a} 减去投影后与 b\mathbf{b} 垂直,解出系数 tt 自然得到这个结果。

如果你愿意,我可以继续讲:

  • 投影矩阵(把投影操作写成矩阵形式 P=bbTb2P = \frac{\mathbf{b}\mathbf{b}^T}{\|\mathbf{b}\|^2}
  • 子空间上的投影(从投影到一个向量,推广到投影到一个平面或高维空间)

六、一个典型计算题(检验理解)

:设 a=(1,2,2)T\mathbf{a}=(1,2,2)^Tb=(2,1,2)T\mathbf{b}=(2,1,-2)^T

  1. 计算内积 ab\mathbf{a}\cdot\mathbf{b}
  2. a\|\mathbf{a}\|b\|\mathbf{b}\|
  3. 判断是否正交
  4. a\mathbf{a}b\mathbf{b} 上的投影向量
点击查看答案
  1. 12+21+2(2)=2+24=01\cdot2 + 2\cdot1 + 2\cdot(-2) = 2+2-4=0
  2. a=1+4+4=3\|\mathbf{a}\|=\sqrt{1+4+4}=3b=4+1+4=3\|\mathbf{b}\|=\sqrt{4+1+4}=3
  3. 内积为 0 ⇒ 正交
  4. 投影 = 09b=0\frac{0}{9}\mathbf{b}=0(因为正交,投影为零向量)

如果你需要,下一步我可以继续讲施密特正交化(如何把一组线性无关向量变成标准正交基),或者讲讲正交矩阵与这些概念的直接联系。

七、施密特正交化(Gram-Schmidt)

1. 为什么需要它?

实际中我们往往得到一组线性无关的向量(比如基),但它们不一定正交
施密特正交化提供了一种方法:从一组线性无关的向量出发,构造出一组正交的向量组,且保持张成空间不变

2. 基本思想

逐个处理向量:

  • 第一个向量直接保留(但可以单位化)
  • 第二个向量减去它在第一个向量上的投影,使其与第一个正交
  • 第三个向量减去它在第一、二个向量上的投影,使其与前两个都正交
  • 依此类推

一句话:每次减去在已有正交向量上的投影,得到的新向量与之前所有向量正交。

3. 算法步骤(三维为例)

设原线性无关向量组:a1,a2,a3\mathbf{a}_1, \mathbf{a}_2, \mathbf{a}_3

第一步:令 u1=a1\mathbf{u}_1 = \mathbf{a}_1

第二步u2=a2a2u1u1u1u1\mathbf{u}_2 = \mathbf{a}_2 - \frac{\mathbf{a}_2 \cdot \mathbf{u}_1}{\mathbf{u}_1 \cdot \mathbf{u}_1} \mathbf{u}_1
(减去 a2\mathbf{a}_2u1\mathbf{u}_1 上的投影,保证 u2u1\mathbf{u}_2 \perp \mathbf{u}_1

第三步u3=a3a3u1u1u1u1a3u2u2u2u2\mathbf{u}_3 = \mathbf{a}_3 - \frac{\mathbf{a}_3 \cdot \mathbf{u}_1}{\mathbf{u}_1 \cdot \mathbf{u}_1} \mathbf{u}_1 - \frac{\mathbf{a}_3 \cdot \mathbf{u}_2}{\mathbf{u}_2 \cdot \mathbf{u}_2} \mathbf{u}_2
(减去在 u1\mathbf{u}_1u2\mathbf{u}_2 上的投影,保证 u3u1,u3u2\mathbf{u}_3 \perp \mathbf{u}_1, \mathbf{u}_3 \perp \mathbf{u}_2

第四步(可选):单位化

ei=uiui\mathbf{e}_i = \frac{\mathbf{u}_i}{\|\mathbf{u}_i\|}

得到标准正交基

4. 几何直观

把投影想象成“去除其他方向的分量”:

  • 你站在 a2\mathbf{a}_2 上,去掉它沿着 u1\mathbf{u}_1 的分量,剩下的就是垂直分量
  • a3\mathbf{a}_3,去掉它在 u1\mathbf{u}_1 平面上的分量,剩下的是垂直平面的方向

5. 数值例子

a1=(1,1,0)T\mathbf{a}_1=(1,1,0)^Ta2=(1,0,1)T\mathbf{a}_2=(1,0,1)^Ta3=(0,1,1)T\mathbf{a}_3=(0,1,1)^T

  • u1=(1,1,0)\mathbf{u}_1 = (1,1,0)u12=2\|\mathbf{u}_1\|^2=2
  • u2=(1,0,1)(1,0,1)(1,1,0)2(1,1,0)=(1,0,1)1+0+02(1,1,0)=(1,0,1)0.5(1,1,0)=(0.5,0.5,1)\mathbf{u}_2 = (1,0,1) - \frac{(1,0,1)\cdot(1,1,0)}{2}(1,1,0) = (1,0,1) - \frac{1+0+0}{2}(1,1,0) = (1,0,1) - 0.5(1,1,0) = (0.5, -0.5, 1)
  • 单位化后得到标准正交基(可验证各点积为0)

八、正交矩阵(回顾与深化)

1. 定义回顾

方阵 QQ 满足 QTQ=IQ^T Q = I(等价于 Q1=QTQ^{-1}=Q^T),则 QQ正交矩阵

一个方阵 QQ 满足 QTQ=IQ^T Q = I,是因为它是一个正交矩阵 (Orthogonal Matrix)。这个等式是正交矩阵的核心定义。

我们可以从以下几个层面来理解这个等式:

📖 从向量内积的角度理解

这个等式最直观的解释来源于矩阵的列向量。假设方阵 QQ 的列向量为 q1,q2,,qn\mathbf{q}_1, \mathbf{q}_2, \dots, \mathbf{q}_n,那么 QQ 可以写成 Q=[q1,q2,,qn]Q = [\mathbf{q}_1, \mathbf{q}_2, \dots, \mathbf{q}_n]

当我们计算 QTQQ^T Q 时,其结果矩阵的第 ii 行第 jj 列的元素,恰好是 QQ 的第 ii 个列向量与第 jj 个列向量的内积(点积),即 qiTqj\mathbf{q}_i^T \mathbf{q}_j

等式 QTQ=IQ^T Q = I 意味着:

  • i=ji = jqiTqi=1\mathbf{q}_i^T \mathbf{q}_i = 1。这表示每个列向量和自身的内积为1,即每个列向量的长度(模)为1
  • iji \neq jqiTqj=0\mathbf{q}_i^T \mathbf{q}_j = 0。这表示任意两个不同的列向量之间的内积为0,即它们互相垂直(正交)

因此,QTQ=IQ^T Q = I 的本质含义是:矩阵 QQ 的所有列向量构成了一组标准正交基 (Orthonormal Basis)

💡 核心性质与推论

基于 QTQ=IQ^T Q = I 这个定义,可以推导出正交矩阵的一系列重要性质:

  1. 逆矩阵等于转置矩阵 根据逆矩阵的定义,如果一个矩阵 AA 存在逆矩阵 A1A^{-1},则满足 A1A=IA^{-1}A = I。对比 QTQ=IQ^T Q = I,我们可以直接得出正交矩阵最核心的代数性质: Q1=QTQ^{-1} = Q^T 这意味着求正交矩阵的逆非常简单,只需要对其进行转置即可,这在数值计算中极大地简化了运算。

  2. 保持向量长度和夹角不变 正交矩阵所代表的线性变换是一种刚体变换,它不会改变向量的长度和向量之间的夹角。

    • 保持长度:对于任意向量 v\mathbf{v},经过正交变换 QvQ\mathbf{v} 后,其长度保持不变。 Qv2=(Qv)T(Qv)=vTQTQv=vTIv=vTv=v2||Q\mathbf{v}||^2 = (Q\mathbf{v})^T (Q\mathbf{v}) = \mathbf{v}^T Q^T Q \mathbf{v} = \mathbf{v}^T I \mathbf{v} = \mathbf{v}^T \mathbf{v} = ||\mathbf{v}||^2
    • 保持夹角:两个向量 u\mathbf{u}v\mathbf{v} 之间的夹角由它们的内积决定。经过变换后,内积保持不变。 (Qu)(Qv)=(Qu)T(Qv)=uTQTQv=uTIv=uTv=uv(Q\mathbf{u}) \cdot (Q\mathbf{v}) = (Q\mathbf{u})^T (Q\mathbf{v}) = \mathbf{u}^T Q^T Q \mathbf{v} = \mathbf{u}^T I \mathbf{v} = \mathbf{u}^T \mathbf{v} = \mathbf{u} \cdot \mathbf{v}

🌍 几何意义

在几何上,正交矩阵通常用来表示旋转 (Rotation)反射 (Reflection) 变换。

  • 旋转:例如,二维平面上的旋转矩阵 Q=[cosθsinθsinθcosθ]Q = \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix} 就是一个典型的正交矩阵。将一个向量乘以这个矩阵,相当于将该向量绕原点旋转 θ\theta 角度,其长度和与其他向量的相对角度都不会改变。
  • 反射:例如,关于某个坐标平面进行镜像反射的变换也可以由正交矩阵表示。

总而言之,QTQ=IQ^T Q = I 是正交矩阵的定义,它揭示了该矩阵的列向量是标准正交的,并由此衍生出其逆矩阵等于转置、保持向量几何属性不变等一系列优良性质,使其在数学、物理和工程领域有着广泛的应用。

🧩 任何矩阵都定义了一个线性变换

线性变换的核心是满足两个基本规则:

  1. 可加性 (Additivity)T(u + v) = T(u) + T(v)
  2. 齐次性 (Homogeneity)T(cv) = cT(v)

对于任何一个 m × n 的矩阵 A(无论它是不是方阵),我们都可以通过矩阵乘法来定义一个从 n 维空间到 m 维空间的变换 T(x) = Ax。这个变换天生就满足上述两个规则:

  • A(u + v) = Au + Av
  • A(cv) = c(Av)

因此,任何一个矩阵都天然地定义了一个线性变换

🔲 方阵是特殊的线性变换

当一个矩阵是 n × n 的方阵时,它定义的线性变换 T(x) = Ax 有一个特殊之处:输入向量和输出向量都在同一个 n 维空间中。

所以,方阵是从一个空间到其自身的线性变换。

✨ 正交矩阵是特殊的方阵,因此也是线性变换

正交矩阵首先是一个方阵。既然所有方阵都代表线性变换,那么正交矩阵自然也不例外。

它的特殊性在于,它所代表的线性变换具有非常优良的几何性质:保持向量的长度和夹角不变。这种变换在几何上通常对应于旋转 (Rotation)反射 (Reflection)

总结一下它们的关系:

  • 矩阵:是线性变换的通用表示工具。
  • 方阵:是从一个空间到其自身的线性变换。
  • 正交矩阵:是一种特殊的方阵,它代表的是保持几何结构不变的线性变换(如旋转、反射)。

2. 几何本质

正交矩阵对应保持长度和角度的线性变换(旋转或反射)。

对于任意向量 x,y\mathbf{x}, \mathbf{y}

  • 长度不变:Qx=x\|Q\mathbf{x}\| = \|\mathbf{x}\|
  • 内积不变:(Qx)(Qy)=xy(Q\mathbf{x})\cdot(Q\mathbf{y}) = \mathbf{x}\cdot\mathbf{y}
  • 夹角不变:cosθ=xyxy\cos\theta = \frac{\mathbf{x}\cdot\mathbf{y}}{\|\mathbf{x}\|\|\mathbf{y}\|} 在变换后不变

3. 列向量/行向量的标准正交性

Q=[q1 q2  qn]Q = [\mathbf{q}_1 \ \mathbf{q}_2 \ \dots \ \mathbf{q}_n],则:

  • qiqj=0 (ij)\mathbf{q}_i \cdot \mathbf{q}_j = 0 \ (i\ne j) (两两正交)
  • qi=1\|\mathbf{q}_i\| = 1 (单位长)

结论:正交矩阵的列(行)向量构成一组标准正交基。

4. 重要性质

性质内容
行列式detQ=±1\det Q = \pm 1(旋转为 +1+1,反射为 1-1
Q1=QTQ^{-1} = Q^T
乘积正交矩阵的乘积仍是正交矩阵
特征值模长均为 1(复数特征值成对出现,如 cosθ±isinθ\cos\theta\pm i\sin\theta

九、三个概念的联系(总结图景)

内积 · 长度 · 正交性
       ↓
   (施密特正交化)
       ↓
   标准正交基
       ↓
   正交矩阵 QQ^T = Q^{-1}
       ↓
   保持长度/角度的变换

核心脉络

  1. 内积定义了长度和角度
  2. 正交性是内积为零的几何关系
  3. 施密特方法把任意基变成正交基
  4. 正交矩阵的行/列向量就是标准正交基
  5. 应用:最小二乘法、QR分解、PCA、傅里叶级数、量子力学……

十、一个综合例题(把前后串起来)


已知 a1=(1,2,1)T\mathbf{a}_1=(1,2,-1)^Ta2=(2,1,0)T\mathbf{a}_2=(2,1,0)^T

  1. 判断 a1\mathbf{a}_1a2\mathbf{a}_2 是否正交
  2. 求与两者都正交的单位向量
  3. 构造一个 3×33\times 3 正交矩阵,使其第一列为 a1\mathbf{a}_1 的单位化向量
点击查看答案
  1. a1a2=12+21+(1)0=2+2+0=40\mathbf{a}_1\cdot\mathbf{a}_2 = 1\cdot2+2\cdot1+(-1)\cdot0 = 2+2+0=4 \ne 0,不正交

  2. x=(x,y,z)T\mathbf{x}=(x,y,z)^T,满足:
    x+2yz=0x+2y-z=02x+y=02x+y=0
    解得:令 x=1x=1,则 y=2y=-2z=1+2(2)=3z=1+2(-2)=-3
    x=(1,2,3)T\mathbf{x}=(1,-2,-3)^T,单位化:(1,2,3)14\frac{(1,-2,-3)}{\sqrt{14}}

  3. u1=a1a1=(1,2,1)6\mathbf{u}_1 = \frac{\mathbf{a}_1}{\|\mathbf{a}_1\|} = \frac{(1,2,-1)}{\sqrt{6}}
    再找一个与 u1\mathbf{u}_1 正交的向量(如第2题的 x\mathbf{x}),单位化后作为第二列
    第三列由前两列叉积(3D中)或施密特补全得到


如果你需要,下一步我可以深入讲:

  • QR分解(正交矩阵与上三角矩阵的乘积,数值线性代数的基石)
  • 最小二乘法(用正交投影求无解方程组的最优近似解)
  • PCA主成分分析(找数据方差最大的正交方向)