线性代数和概率论

2,095 阅读8分钟

谈到人工智能和机器学习,就必须具备一定的数学基础知识,才能让我们更深刻的理解其本质。而这些数学基础知识中最重要的包含两块内容:线性代数和概率论

线性代数

线性代数的核心意义:万事万物都可以被抽象成某些特征的组合,并在由预置规则定义的框架之下以静态和动态的方式加以观察。

在线性代数中,由单独的数a构成的元素被称为标量,一个标量a可以是整数、实数或复数。

多个标量a1、a2、a3.....an按一定顺序组成一个序列,这样的元素就被称为向量。向量可以看作标量的扩展,原来的一个数被一组数替代,从而带来了维度的增加。

如果将向量的所有标量都替换成相同规格的向量,得到就是矩阵image.png

相对于向量,矩阵同样代表了维度的增加,矩阵中的每个元素需要使用两个索引确定。同理,如果将矩阵中的每个标量元素在替换为向量的话,得到的就是张量。张量就是高阶矩阵,属于三维的概念。

在计算机存储中,标量占据的是零维数组,例如二进制字符;向量占据的是一维数组,例如语音信号;矩阵占据的是二维数组,例如灰度图像;张量占据的是三维数组,例如RGB图像和视频。

描述数学对象的向量需要有特定的数学语言,范数内积就是代表。

范数是对单个向量大小的度量,描述的是向量自身的性质,其作用是将向量映射为一个非负的数值。通用的L(p)范数定义如下: image.png

L(1)范数计算的是向量所有元素绝对值的和,L(2)范数计算的是通常意义上的向量长度,L(+)范数计算的则是向量中最大元素的取值。

范数计算的是单个向量的尺度,内积计算的则是两个向量之间的关系。 两个相同维度向量的内积表达式为:

image.png

内积能够表示两个向量之间的相对位置,即向量之间的夹角。一种特殊的情况是内积为 0,即 ⟨x,y⟩=0。在二维空间上,这意味着两个向量的夹角为 90 度,即相互垂直。而在高维空间上,这种关系被称为正交(orthogonality)。如果两个向量正交,说明他们线性无关,相互独立,互不影响。

在线性空间中,任意一个向量代表的都是 n 维空间中的一个点;反过来, 空间中的任意点也都可以唯一地用一个向量表示。

线性空间的一个重要特征是能够承载变化。当作为参考系的标准正交基确定后,空间中的点就可以用向量表示。当这个点从一个位置移动到另一个位置时,描述它的向量也会发生改变。点的变化对应着向量的线性变换(linear transformation),而描述对象变化抑或向量变换的数学语言,正是矩阵。

在线性空间中,变化的实现有两种方式:一是点本身的变化,二是参考系的变化。因此,对于矩阵和向量的相乘,就存在不同的解读方式:Ax=y

这个表达式既可以理解为向量 x 经过矩阵 A 所描述的变换,变成了向量 y;也可以理解为一个对象在坐标系 A 的度量下得到的结果为向量 x,在标准坐标系 I(单位矩阵:主对角线元素为 1,其余元素为 0)的度量下得到的结果为向量 y。

描述矩阵的⼀对重要参数是特征值(eigenvalue特征向量(eigenvector)。对于给定的矩阵 A,假设其特征值为λ,特征向量为 x,则它们之间的关系如下: Ax=λx

矩阵代表了向量的变换,其效果通常是对原始向量同时施加方向变化和尺度变化。可对于有些特殊的向量,矩阵的作用只有尺度变化而没有方向变化,也就是只有伸缩的效果而没有旋转的效果。对于给定的矩阵来说,这类特殊的向量就是矩阵的特征向量,特征向量的尺度变化系数就是特征值。

矩阵特征值和特征向量的动态意义在于表示了变化的速度和方向。

概率论

同线性代数一样,概率论也代表了一种看待世界的方式,其关注的焦点是无处不在的可能性。对随机事件发生的可能性进行规范的数学描述就是概率论的公理化过程。概率的公理化结构体现出的是对概率本质的一种认识。

从事件发生的频率认识概率的方法被称为频率学派(frequentist probability),频率学派口中的“概率”,其实是一个可独立重复的随机实验中单个结果出现频率的极限。因为稳定的频率是统计规律性的体现,因而通过大量的独立重复试验计算频率,并用它来表征事件发生的可能性是一种合理的思路。

在概率的定量计算上,频率学派依赖的基础是古典概率模型。在古典概率模型中,试验的结果只包含有限个基本事件,且每个基本事件发生的可能性相同。如此一来,假设所有基本事件的数目为 n,待观察的随机事件 A 中包含的基本事件数目为 k,则古典概率模型下事件概率的计算公式为

image.png

条件概率(conditional probability)是根据已有信息对样本空间进行调整后得到的新的概率分布。假定有两个随机事件 A 和 B,条件概率就是指事件 A 在事件 B 已经发生的条件下发生的概率,用以下公式表示

image.png

上式中的 P(AB) 称为联合概率(joint probability),表示的是 A 和 B 两个事件共同发生的概率。如果联合概率等于两个事件各自概率的乘积,即 P(AB)=P(A)⋅P(B),说明这两个事件的发生互不影响,即两者相互独立。对于相互独立的事件,条件概率就是自身的概率,即 P(A∣B)=P(A)。

贝叶斯定理(Bayes' theorem):

image.png

式中的 P(H) 被称为先验概率(prior probability),即预先设定的假设成立的概率;P(D∣H) 被称为似然概率(likelihood function),是在假设成立的前提下观测到结果的概率;P(H∣D) 被称为后验概率(posterior probability),即在观测到结果的前提下假设成立的概率。

频率学派认为假设是客观存在且不会改变的,即存在固定的先验分布,只是作为观察者的我们无从知晓。

贝叶斯学派则认为固定的先验分布是不存在的,参数本身也是随机数。换言之,假设本身取决于观察结果,是不确定并且可以修正的。数据的作用就是对假设做出不断的修正,使观察者对概率的主观认识更加接近客观实际。

概率的估计有两种方法:最大似然估计法(maximum likelihood estimation)和最大后验概率法(maximum a posteriori estimation),两者分别体现出频率学派和贝叶斯学派对概率的理解方式。

最大似然估计法的思想是使训练数据出现的概率最大化,依此确定概率分布中的未知参数,估计出的概率分布也就最符合训练数据的分布。最大后验概率法的思想则是根据训练数据和已知的其他条件,使未知参数出现的可能性最大化,并选取最可能的未知参数取值作为估计值。

概率论的一个重要应用是描述随机变量(random variable)。根据取值空间的不同,随机变量可以分成两类:离散型随机变量(discrete random variable)和连续型随机变量(continuous random variable)

离散变量的每个可能的取值都具有大于 0 的概率,取值和概率之间一一对应的关系就是离散型随机变量的分布律,也叫概率质量函数(probability mass function)。概率质量函数在连续型随机变量上的对应就是概率密度函数(probability density function)。

总结

不管机器学习还是人工智能,这些高大上的名词终于能够跟自己学了多年的数学产生联系,实属庆幸。虽然我不是数学专业,但是对于数学我始终还是自信的,大学时候的《线性代数》,研究生时候的《概率论》,这些基础的知识我依然还是有印象,但是深入理解仍需要加强练习并巩固。