人工智能学习笔记 - 数学基础 - 向量和矩阵
在线性代数中,向量和矩阵是最核心的基础概念,在数据建模和运算中有非常重要的作用。
向量
向量的概念定义和基本知识。
定义
向量本质上是 既有大小又有方向的量。在数学里通常表示为列向量v=v1v2⋮vn∈Rn(这个表达式可以理解为向量v被写成所在空间Rn的列向量形式,vi表示向量中的每一个分量。例如在几何中,向量v=123∈R3表示在三位空间中的点(1,2,3)或者从原点出发到点(1,2,3)的一个带方向的线段)。
基本概念:
- **零向量:**所有分量都是0的向量
- **单位向量(基向量):**能够生成整个空间的最小向量组
- 例如三维空间的单位向量(标准基向量)i、j和k:i=100,j=010,k=001
- **维度:**单位向量(基向量)的个数
向量运算
- 加法:u+v表示按照坐标逐项分量相加得到一个新的向量
- 减法:u−v表示按照坐标逐项分量相减得到一个新的向量
- 数乘(标量乘法):αv 表示向量中的每一个分量都乘以数α得到一个新的向量
- 内积(点乘/点积):u⋅v=v1u1+v2u2+⋯vnun得到一个实数
- 范数(长度):∥v∥=v12+v22+⋯+vn2计算得到一个实数
- 二维向量叉乘(伪叉乘): u×v=u1v2−u2v1,结果是一个实数
- 在二维空间中,这个值可以理解为向量u和v组成的平行四边形的有向面积(方向由右手定则确定)
- 在二维中通常只用这个结果来表示面积的大小与方向,而不是严格意义上的三维叉乘
- 三维叉乘:u×v=iu1v1ju2v2ku3v3=iu2v2u3v3−ju1v1u3v3+ku1v1u2v2=i(u2v3−u3v2)−j(u1v3−u3v1)+k(u1v2−u2v1)=u2v3−u3v2−(u1v3−u3v1)u1v2−u2v1
- 叉乘的结果是一个向量,在三维空间中可以理解为方向垂直于u和v,长度等于u和v组成的平行四边形面积。
- 对于表达式中的第二段表述叫做符号化的行列展开式,第一行是单位向量,第二、三行是分量
矩阵
矩阵是线性代数中的核心工具,用于表示多维数据和进行线性变换。
定义
矩阵是按照矩形排列的一组数或元素,通常记作 A∈Rm×n:
A=a11a21⋮am1a12a22⋮am2⋯⋯⋱⋯a1na2n⋮amn
- m 表示行数,n 表示列数
- 方阵: 行数等于列数
- 零矩阵: 所有元素为 0
- 单位矩阵 In: 方阵,对角线(左上到右下)为 1,其他元素为 0
- 列向量与行向量: 矩阵的每一列可以看作列向量,每一行可以看作行向量
- 线性变换: 矩阵可以表示从 Rn 到 Rm 的线性映射
- 线性变换(Linear Transformation) 本质上是一个函数:f:Rn→Rm,把一个 n 维向量映射到一个 m 维向量,矩阵就是线性变换的具体表示。
- 若 A∈Rm×n,对任意向量 x∈Rn,有f(x)=Ax∈Rm
输入 n 维向量,输出为 m 维向量。
- 在几何中矩阵通常用来表示旋转、拉伸和缩放等。
- 秩(Rank): 矩阵中线性无关的行(或列)向量的最大数量
- 线性无关:向量组 {v1,v2,⋯,vn} 如果满足:c1v1+c2v2+⋯+cnvn=0⇒c1=c2=⋯=cn=0
那么这组向量是线性无关的。
- 迹(Trace): 方阵对角线元素之和,记作 tr(A)
矩阵运算
- 加法:A+B=[aij+bij](对应元素相加,必须同型矩阵)
- 减法:A−B=[aij−bij]
- 数乘(标量乘法):αA=[αaij]
- 矩阵乘法: 若 A∈Rm×n,B∈Rn×p,则
C=AB∈Rm×p,cij=k=1∑naikbkj
- 转置:AT∈Rn×m,交换行和列:
(AT)ij=aji
- 逆矩阵: 若 A 是方阵且存在 B 使 AB=BA=I,则 B=A−1,满足:
AA−1=A−1A=I
- 行列式(仅方阵): 对于n维方阵A有det(A)=∑j=1n(−1)1+ja1jdet(M1j),用于判断矩阵是否可逆(det(A)=0 表示可逆)
特征值和特征向量
特征值和特征向量是线性代数的核心概念,在人工智能中有广泛的应用,比如数据降维、线性代数优化等。
定义
对于方阵A∈Rn×n,如果存在非零向量v=0和标量λ使得
Av=λv
那么:
- λ称为矩阵A的特征值
- v称为对应于λ的特征向量
奇异值
奇异值是线性代数的核心概念,在人工智能中有广泛的应用。
定义
对于任意一个实矩阵 A∈Rm×n,通过奇异值分解(SVD)可以写成:
A=UΣVT
其中:
- U∈Rm×m:正交矩阵(列向量两两正交,称为左奇异向量)
- V∈Rn×n:正交矩阵(列向量两两正交,称为右奇异向量)
- Σ∈Rm×n:对角块矩阵,对角线上非负实数 σ1≥σ2≥⋯≥σr>0,这些就是 奇异值
和特征值的关系:
- 特征值定义只适用于 方阵,而奇异值对 任意矩阵 都可以分解。
- 奇异值 σi 来自于矩阵 ATA 或 AAT 的特征值:
σi=λi(ATA)
其中λi是特征值。
- 特征值/特征向量 描述方阵作用下“不变方向”和缩放倍数。奇异值/奇异向量 适用于任意矩阵,描述矩阵在不同方向上的“拉伸程度和方向”。