下面来系统讲解向量的内积、长度(模)和正交性。这是线性代数中从“代数运算”走向“几何度量”的关键一步,也是理解正交矩阵、最小二乘法、傅里叶级数等高级内容的基础。
一、内积(点积 / 数量积)
1. 定义
对于两个 n 维实向量
a=(a1,a2,…,an)T,
b=(b1,b2,…,bn)T,
它们的内积定义为:
a⋅b=aTb=a1b1+a2b2+⋯+anbn
结果是一个标量(实数)。
内积公式来源:
-
投影即线性变换
将二维向量正交投影到过原点的倾斜数轴(由单位向量 u^ 定向)上,得到一个标量。该操作满足线性性(等距点投影后仍等距 + 叠加性),故是从 R2 到 R 的线性泛函。
- 某一条特定直线等间隔分布的一组点,将这组点正交投影到目标数轴(如倾斜直线)上后,投影点在该数轴上的标量坐标仍保持等间隔。
- 原因:投影到直线的变换是线性泛函(标量输出)
-
投影变换的矩阵
任何线性变换都可以用一个矩阵表示。对于投影到单位向量 u^ 所在直线的变换,它的矩阵是一个 1×2 矩阵。通过对称性可以推出:单位向量 i^ 投影后的值等于 u^ 的横坐标,单位向量 j^ 投影后的值等于 u^ 的纵坐标。因此,该投影变换的矩阵就是 [uxuy]。
-
矩阵乘法与点积的等价性
对于任意向量 v=[vxvy],应用投影变换即为:
[uxuy][vxvy]=uxvx+uyvy=u^⋅v.
- 对称性破局:找到变换矩阵
- 求该变换的 1×2 矩阵,需计算标准基 i^,j^ 投影后的数值(即矩阵元素)。
- 关键洞察:因 i^ 与 u^ 均为单位向量,i^ 在 u^ 方向的投影长度 =cosθ;而 u^ 在 x 轴(i^ 方向)的投影长度 =u^x=cosθ。二者数值相等!
- 同理:j^ 投影值 =u^y。
→ 变换矩阵即为 [u^xu^y](u^ 的转置)。

-
代数与几何的汇合
对任意向量 v=(vx,vy):
投影结果=[u^xu^y][vxvy]=u^xvx+u^yvy=u^⋅v
点积的坐标运算,本质就是执行该投影变换。当 u^ 是单位向量时,结果即为 v 在 u^ 方向的带符号投影长度。
-
推广至非单位向量
若 u=ku^(k=∥u∥),则变换矩阵缩放为 [ku^xku^y]:
v⋅u=k(u^⋅v)=(投影到 u^ 方向的长度)×∥u∥
这正是几何定义 ∥v∥∥u∥cosθ 的由来。
💡 深层启示:对偶性(Duality)
- 核心结论:任何从 Rn 到 R 的线性变换(线性泛函),唯一对应 Rn 中的一个向量 w,使得该变换等价于“与 w 做点积”。
- 数学本质:这是 Riesz 表示定理 在欧氏空间的特例——内积空间中,每个连续线性泛函均可由内积表示。
- 几何直觉:
“向量 w 是该线性变换的‘化身’:你无需记住变换规则,只需记住这个向量,点积即完成变换。”
✅ 为何此论证如此有力?
| 传统困惑 | 本论证的解答 |
|---|
| “为何坐标相乘相加能代表投影?” | 因投影是线性变换 → 必有矩阵表示 → 对称性证明该矩阵恰为 u^T → 矩阵乘法 = 点积 |
| “点积的对称性(a⋅b=b⋅a)为何成立?” | 因“a 投影到 b 方向 × ∥b∥” 与 “b 投影到 a 方向 × ∥a∥” 数值相等(均由 ∥a∥∥b∥cosθ 决定) |
| “点积与线性代数其他概念有何联系?” | 揭示了线性泛函 ↔ 向量的对偶关系,为理解梯度、伴随算子、核方法等奠定直觉基础 |
🌰 一句话总结
点积的代数形式(坐标相乘相加)并非人为规定,而是“正交投影”这一几何操作在线性代数框架下的必然代数表达;而“对偶性”告诉我们:在欧氏空间中,每一个将向量映射为标量的线性规则,都藏在一个向量里——你与它点积,便执行了该规则。
2. 几何意义(二维/三维)
在二维或三维空间中,内积还有另一个等价形式:
a⋅b=∥a∥∥b∥cosθ
其中 θ 是两个向量的夹角。
物理直觉:内积 = 一个向量在另一个向量方向上的投影长度 × 另一个向量的长度。
3. 内积的基本性质(实向量)
对任意向量 a,b,c 和实数 k:
| 性质 | 公式 |
|---|
| 对称性 | a⋅b=b⋅a |
| 线性性 | (ka)⋅b=k(a⋅b) (a+b)⋅c=a⋅c+b⋅c |
| 正定性 | a⋅a≥0,且 a⋅a=0⟺a=0 |
二、向量的长度(模 / 范数)
1. 定义
由内积自然诱导出向量的长度(也称 2-范数):
∥a∥=a⋅a=a12+a22+⋯+an2
几何上就是通常的欧几里得距离。
2. 单位向量
长度为 1 的向量称为单位向量。
对于任意非零向量 a,可以将其单位化:
u=∥a∥a
3. 长度的基本性质
- 非负性:∥a∥≥0,且 ∥a∥=0⟺a=0
- 齐次性:∥ka∥=∣k∣⋅∥a∥
- 三角不等式:∥a+b∥≤∥a∥+∥b∥
4. 柯西-施瓦茨不等式(非常重要的桥梁)
∣a⋅b∣≤∥a∥∥b∥
等号成立 ⟺ a 与 b 线性相关(共线)。
这个不等式把内积和长度联系了起来。
三、正交性
1. 定义
两个向量 a,b 称为正交,如果:
a⋅b=0
记作 a⊥b。
几何上:夹角为 90°(或 270°)。
2. 零向量的特殊情况
- 零向量与任何向量正交:0⋅b=0。
- 但讨论“非零向量正交组”时更有意义。
3. 正交向量组
一组向量 v1,…,vm,如果两两正交,即:
vi⋅vj=0(i=j)
则称为正交向量组。
重要定理:正交组必线性无关
证明思路:假设 k1v1+⋯+kmvm=0,两边与 vi 做内积,利用正交性得到 ki∥vi∥2=0,故 ki=0。
4. 标准正交基
如果正交组中每个向量的长度都为 1,则称为标准正交基(或单位正交基)。
二维标准正交基例子:
e1=(1,0)T,e2=(0,1)T
四、勾股定理与投影(重要应用)
1. 正交情况下的勾股定理
若 a⊥b,则:
∥a+b∥2=∥a∥2+∥b∥2
(证明:展开 ∥a+b∥2=(a+b)⋅(a+b)=∥a∥2+∥b∥2+2a⋅b,正交项为零。)
2. 向量在另一个向量上的投影
a 在 b 上的投影向量:
projba=∥b∥2a⋅bb
- 标量投影长度:∥a∥cosθ=∥b∥a⋅b
- 投影向量 = 标量投影 × b 方向的单位向量。
五、总结对比表
| 概念 | 定义 | 关键性质 / 公式 | | |
|---|
| 内积 | a⋅b=∑aibi | 对称、线性、正定 | | |
| 长度 | ∥a∥=a⋅a | 三角不等式、齐次性 | | |
| 正交 | a⋅b=0 | 零向量与任何向量正交 | | |
| 柯西-施瓦茨 | $ | \mathbf{a}\cdot\mathbf{b} | \le |\mathbf{a}||\mathbf{b}|$ | 等号 ↔ 共线 |
| 投影 | ∥b∥2a⋅bb | 分解出正交分量 | | |
| 正交组 | 两两内积为零 | ⇒ 线性无关 | | |
| 标准正交基 | 正交 + 单位长 | 最方便的坐标系 | | |
这个问题问得非常到位——它正是从“背公式”走向“理解几何”的关键一步。
投影计算
已知两个向量 a 和 b(b=0)。
我们想找到 a 在 b 方向上的投影向量,记作 p。
这个 p 必须满足两个条件:
- 共线:p 与 b 平行,即 p=tb,其中 t 是一个实数(标量)。
- 垂直:a−p 与 b 垂直,即 (a−tb)⊥b。
几何直观:从 a 的末端向 b 所在直线作垂线,垂足对应的向量就是投影。
用正交条件解出 t
把“垂直”写成内积方程:
(a−tb)⋅b=0
展开:
a⋅b−t(b⋅b)=0
t=b⋅ba⋅b
而 b⋅b=∥b∥2。
于是:
p=tb=∥b∥2a⋅bb
推导完成。这里没有任何技巧,完全由“垂直条件”自然导出。
几何直觉(为什么除的是 ∥b∥2 而不是 ∥b∥?)
很多人会疑惑:分子是 a⋅b=∥a∥∥b∥cosθ,分母是 ∥b∥2,所以:
t=∥b∥2∥a∥∥b∥cosθ=∥b∥∥a∥cosθ
因此:
p=(∥a∥cosθ)⋅∥b∥b
解读:
- ∥a∥cosθ 是 a 在 b 方向上的有向长度(标量投影)。
- ∥b∥b 是 b 方向的单位向量。
所以投影向量 = (标量投影长度)×(单位方向向量)。
除 ∥b∥2 的原因:
分子里已经有一个 ∥b∥(来自 a⋅b 的定义),我们只需要再除一个 ∥b∥ 就能把单位向量提出来,但公式里写的是 ∥b∥2,这是因为我们保留了 b 本身而不是单位向量。
两种等价写法(都很重要)
| 写法 | 含义 |
|---|
| ∥b∥2a⋅bb | 直接由垂直条件推出,便于计算 |
| (∥a∥cosθ)∥b∥b | 突出几何意义:长度 × 单位方向 |
两者完全等价。
一个具体数值例子(消除抽象感)
设 a=(4,0),b=(1,2)。
- ∥b∥2=12+22=5
- a⋅b=4×1+0×2=4
- t=54=0.8
- p=0.8×(1,2)=(0.8,1.6)
验证垂直:
a−p=(4−0.8, 0−1.6)=(3.2,−1.6)
(3.2,−1.6)⋅(1,2)=3.2−3.2=0✓
总结一句话
投影向量公式 ∥b∥2a⋅bb 的唯一来源是:要求 a 减去投影后与 b 垂直,解出系数 t 自然得到这个结果。
如果你愿意,我可以继续讲:
- 投影矩阵(把投影操作写成矩阵形式 P=∥b∥2bbT)
- 子空间上的投影(从投影到一个向量,推广到投影到一个平面或高维空间)
六、一个典型计算题(检验理解)
题:设 a=(1,2,2)T,b=(2,1,−2)T。
- 计算内积 a⋅b
- 求 ∥a∥、∥b∥
- 判断是否正交
- 求 a 在 b 上的投影向量
点击查看答案
- 1⋅2+2⋅1+2⋅(−2)=2+2−4=0
- ∥a∥=1+4+4=3,∥b∥=4+1+4=3
- 内积为 0 ⇒ 正交
- 投影 = 90b=0(因为正交,投影为零向量)
如果你需要,下一步我可以继续讲施密特正交化(如何把一组线性无关向量变成标准正交基),或者讲讲正交矩阵与这些概念的直接联系。
七、施密特正交化(Gram-Schmidt)
1. 为什么需要它?
实际中我们往往得到一组线性无关的向量(比如基),但它们不一定正交。
施密特正交化提供了一种方法:从一组线性无关的向量出发,构造出一组正交的向量组,且保持张成空间不变。
2. 基本思想
逐个处理向量:
- 第一个向量直接保留(但可以单位化)
- 第二个向量减去它在第一个向量上的投影,使其与第一个正交
- 第三个向量减去它在第一、二个向量上的投影,使其与前两个都正交
- 依此类推
一句话:每次减去在已有正交向量上的投影,得到的新向量与之前所有向量正交。
3. 算法步骤(三维为例)
设原线性无关向量组:a1,a2,a3。
第一步:令 u1=a1
第二步:u2=a2−u1⋅u1a2⋅u1u1
(减去 a2 在 u1 上的投影,保证 u2⊥u1)
第三步:u3=a3−u1⋅u1a3⋅u1u1−u2⋅u2a3⋅u2u2
(减去在 u1 和 u2 上的投影,保证 u3⊥u1,u3⊥u2)
第四步(可选):单位化
ei=∥ui∥ui
得到标准正交基。
4. 几何直观
把投影想象成“去除其他方向的分量”:
- 你站在 a2 上,去掉它沿着 u1 的分量,剩下的就是垂直分量
- 对 a3,去掉它在 u1 平面上的分量,剩下的是垂直平面的方向
5. 数值例子
设 a1=(1,1,0)T,a2=(1,0,1)T,a3=(0,1,1)T。
- u1=(1,1,0),∥u1∥2=2
- u2=(1,0,1)−2(1,0,1)⋅(1,1,0)(1,1,0)=(1,0,1)−21+0+0(1,1,0)=(1,0,1)−0.5(1,1,0)=(0.5,−0.5,1)
- 单位化后得到标准正交基(可验证各点积为0)
八、正交矩阵(回顾与深化)
1. 定义回顾
方阵 Q 满足 QTQ=I(等价于 Q−1=QT),则 Q 是正交矩阵。
一个方阵 Q 满足 QTQ=I,是因为它是一个正交矩阵 (Orthogonal Matrix)。这个等式是正交矩阵的核心定义。
我们可以从以下几个层面来理解这个等式:
📖 从向量内积的角度理解
这个等式最直观的解释来源于矩阵的列向量。假设方阵 Q 的列向量为 q1,q2,…,qn,那么 Q 可以写成 Q=[q1,q2,…,qn]。
当我们计算 QTQ 时,其结果矩阵的第 i 行第 j 列的元素,恰好是 Q 的第 i 个列向量与第 j 个列向量的内积(点积),即 qiTqj。
等式 QTQ=I 意味着:
- 当 i=j 时:qiTqi=1。这表示每个列向量和自身的内积为1,即每个列向量的长度(模)为1。
- 当 i=j 时:qiTqj=0。这表示任意两个不同的列向量之间的内积为0,即它们互相垂直(正交)。
因此,QTQ=I 的本质含义是:矩阵 Q 的所有列向量构成了一组标准正交基 (Orthonormal Basis)。
💡 核心性质与推论
基于 QTQ=I 这个定义,可以推导出正交矩阵的一系列重要性质:
-
逆矩阵等于转置矩阵
根据逆矩阵的定义,如果一个矩阵 A 存在逆矩阵 A−1,则满足 A−1A=I。对比 QTQ=I,我们可以直接得出正交矩阵最核心的代数性质:
Q−1=QT
这意味着求正交矩阵的逆非常简单,只需要对其进行转置即可,这在数值计算中极大地简化了运算。
-
保持向量长度和夹角不变
正交矩阵所代表的线性变换是一种刚体变换,它不会改变向量的长度和向量之间的夹角。
- 保持长度:对于任意向量 v,经过正交变换 Qv 后,其长度保持不变。
∣∣Qv∣∣2=(Qv)T(Qv)=vTQTQv=vTIv=vTv=∣∣v∣∣2
- 保持夹角:两个向量 u 和 v 之间的夹角由它们的内积决定。经过变换后,内积保持不变。
(Qu)⋅(Qv)=(Qu)T(Qv)=uTQTQv=uTIv=uTv=u⋅v
🌍 几何意义
在几何上,正交矩阵通常用来表示旋转 (Rotation) 和 反射 (Reflection) 变换。
- 旋转:例如,二维平面上的旋转矩阵 Q=[cosθsinθ−sinθcosθ] 就是一个典型的正交矩阵。将一个向量乘以这个矩阵,相当于将该向量绕原点旋转 θ 角度,其长度和与其他向量的相对角度都不会改变。
- 反射:例如,关于某个坐标平面进行镜像反射的变换也可以由正交矩阵表示。
总而言之,QTQ=I 是正交矩阵的定义,它揭示了该矩阵的列向量是标准正交的,并由此衍生出其逆矩阵等于转置、保持向量几何属性不变等一系列优良性质,使其在数学、物理和工程领域有着广泛的应用。
🧩 任何矩阵都定义了一个线性变换
线性变换的核心是满足两个基本规则:
- 可加性 (Additivity):
T(u + v) = T(u) + T(v)
- 齐次性 (Homogeneity):
T(cv) = cT(v)
对于任何一个 m × n 的矩阵 A(无论它是不是方阵),我们都可以通过矩阵乘法来定义一个从 n 维空间到 m 维空间的变换 T(x) = Ax。这个变换天生就满足上述两个规则:
A(u + v) = Au + Av
A(cv) = c(Av)
因此,任何一个矩阵都天然地定义了一个线性变换。
🔲 方阵是特殊的线性变换
当一个矩阵是 n × n 的方阵时,它定义的线性变换 T(x) = Ax 有一个特殊之处:输入向量和输出向量都在同一个 n 维空间中。
所以,方阵是从一个空间到其自身的线性变换。
✨ 正交矩阵是特殊的方阵,因此也是线性变换
正交矩阵首先是一个方阵。既然所有方阵都代表线性变换,那么正交矩阵自然也不例外。
它的特殊性在于,它所代表的线性变换具有非常优良的几何性质:保持向量的长度和夹角不变。这种变换在几何上通常对应于旋转 (Rotation) 或 反射 (Reflection)。
总结一下它们的关系:
- 矩阵:是线性变换的通用表示工具。
- 方阵:是从一个空间到其自身的线性变换。
- 正交矩阵:是一种特殊的方阵,它代表的是保持几何结构不变的线性变换(如旋转、反射)。
2. 几何本质
正交矩阵对应保持长度和角度的线性变换(旋转或反射)。
对于任意向量 x,y:
- 长度不变:∥Qx∥=∥x∥
- 内积不变:(Qx)⋅(Qy)=x⋅y
- 夹角不变:cosθ=∥x∥∥y∥x⋅y 在变换后不变
3. 列向量/行向量的标准正交性
若 Q=[q1 q2 … qn],则:
- qi⋅qj=0 (i=j) (两两正交)
- ∥qi∥=1 (单位长)
结论:正交矩阵的列(行)向量构成一组标准正交基。
4. 重要性质
| 性质 | 内容 |
|---|
| 行列式 | detQ=±1(旋转为 +1,反射为 −1) |
| 逆 | Q−1=QT |
| 乘积 | 正交矩阵的乘积仍是正交矩阵 |
| 特征值 | 模长均为 1(复数特征值成对出现,如 cosθ±isinθ) |
九、三个概念的联系(总结图景)
内积 · 长度 · 正交性
↓
(施密特正交化)
↓
标准正交基
↓
正交矩阵 Q
↓
Q^T = Q^{-1}
↓
保持长度/角度的变换
核心脉络
- 内积定义了长度和角度
- 正交性是内积为零的几何关系
- 施密特方法把任意基变成正交基
- 正交矩阵的行/列向量就是标准正交基
- 应用:最小二乘法、QR分解、PCA、傅里叶级数、量子力学……
十、一个综合例题(把前后串起来)
题:
已知 a1=(1,2,−1)T,a2=(2,1,0)T。
- 判断 a1 与 a2 是否正交
- 求与两者都正交的单位向量
- 构造一个 3×3 正交矩阵,使其第一列为 a1 的单位化向量
点击查看答案
-
a1⋅a2=1⋅2+2⋅1+(−1)⋅0=2+2+0=4=0,不正交
-
设 x=(x,y,z)T,满足:
x+2y−z=0 且 2x+y=0
解得:令 x=1,则 y=−2,z=1+2(−2)=−3
得 x=(1,−2,−3)T,单位化:14(1,−2,−3)
-
u1=∥a1∥a1=6(1,2,−1)
再找一个与 u1 正交的向量(如第2题的 x),单位化后作为第二列
第三列由前两列叉积(3D中)或施密特补全得到
如果你需要,下一步我可以深入讲:
- QR分解(正交矩阵与上三角矩阵的乘积,数值线性代数的基石)
- 最小二乘法(用正交投影求无解方程组的最优近似解)
- PCA主成分分析(找数据方差最大的正交方向)