精通-Java-机器学习-四-

32 阅读10分钟

精通 Java 机器学习(四)

原文:annas-archive.org/md5/ae0ef35bdc04e7c0f29c1a93734045dd

译者:飞龙

协议:CC BY-NC-SA 4.0

附录 A. 线性代数

线性代数在机器学习中至关重要,它为我们提供了一系列特别适用于数据操作和从数据中提取模式的有用工具。此外,当数据必须像在许多机器学习中那样批量处理时,使用“向量形式”作为传统循环结构的替代,在实现优化、数据预处理或分析中的任何操作时,可以获得巨大的运行时效率。

在以下内容中,我们只考虑实数域。因此,向量线性代数代表一个n个实数值的数组。矩阵线性代数是一个具有m行和n列实数值的二维数组。

这里介绍了线性代数基础的一些关键概念。

向量

向量x(小写,粗体,按惯例;等价于向量)可以被视为n-维空间中的一个点。按惯例,当我们说向量时,我们指的是列向量。列向量的转置是一个具有相同元素数量的行向量,排列在单行中。

向量向量

向量标量积

也称为点积,标量积定义为等长向量的乘积。该操作的结果是一个标量值,通过求向量对应元素的乘积之和得到。因此,给定向量xy

向量标量积

点积xTy表示为:

向量标量积

矩阵

矩阵是一个二维数字数组。每个元素可以通过其行和列位置进行索引。因此,一个 3 x 2 矩阵:

矩阵

矩阵转置

交换矩阵中的列和行产生转置。因此,A的转置是一个 2 x 3 矩阵:

矩阵转置

矩阵加法

矩阵加法定义为具有相同形状的两个矩阵的逐元素相加。设AB为两个m x n矩阵。它们的和C可以表示如下:

Ci,j = Ai,j + Bi,j

标量乘法

与标量相乘产生一个矩阵,其中每个元素都按标量值缩放。这里A乘以标量值d

标量乘法

矩阵乘法

如果矩阵A的列数等于矩阵B的行数,则两个矩阵AB可以相乘。如果A的维度为m x nB的维度为n x p,则乘积AB的维度为m x p

矩阵乘法

矩阵乘积的性质

对加法的分配律:A(B + C) = AB + AC

结合律:A(BC) = (AB)C

非交换性:AB ≠ BA

向量点积是交换的:xTy = yTx

乘积的转置是转置的乘积:(AB)T = ATBT

线性变换

在线性代数中,矩阵与向量的乘积具有特殊的重要性。考虑一个 3 x 2 矩阵 A 与一个 2 x 1 向量 x 的乘积,产生一个 3 x 1 向量 y

线性变换线性变换线性变换线性变换

(C)

线性变换

(R)

考虑前面矩阵-向量乘积的两种观点是有用的,即列图(C)和行图(R)。在列图中,乘积可以看作是矩阵列向量的线性组合,而行图可以看作是矩阵行与向量 线性变换 的点积。

矩阵逆

矩阵与其逆的乘积是单位矩阵。因此:

矩阵逆

如果存在矩阵逆,则可以用来解由前面的向量-矩阵乘积方程表示的联立方程组。考虑一个方程组:

x1 + 2x2 = 3

3x1 + 9x2 = 21

这可以表示为一个涉及矩阵-向量乘积的方程:

矩阵逆

我们可以通过将两边乘以矩阵逆来求解变量 x1 和 x2。

矩阵逆矩阵逆

矩阵逆可以通过不同的方法计算。读者建议观看斯特兰格教授的麻省理工学院讲座:bit.ly/10vmKcL

特征分解

矩阵可以被分解为因子,这些因子可以给我们提供关于矩阵表示的变换的宝贵见解。特征值和特征向量是特征分解的结果。对于给定的方阵 A,一个特征向量是一个非零向量,当乘以矩阵时,它被转换为其自身的缩放版本。标量乘数是特征值。一个特征向量的所有标量倍数也是特征向量:

A v = λ v

在前面的例子中,v 是一个特征向量,λ 是特征值。

矩阵 A 的特征值方程由以下给出:

(Aλ I)v = 0

特征值的非零解由特征多项式方程的根给出,该方程的阶数为 n,由行列式表示:

特征分解

然后可以通过解 Av = λ v 来找到特征向量 v

一些矩阵,称为可对角化矩阵,可以完全由它们的特征向量和特征值构建。如果 Λ 是具有矩阵 A 的特征值的主对角线的对角矩阵,而 Q 是其列是 A 的特征向量的矩阵:

特征分解

那么 A = Q Λ Q-1。

正定矩阵

如果一个矩阵只有正特征值,则称为 正定矩阵。如果特征值为正或零,则称为 正半定矩阵。对于正定矩阵,以下说法是正确的:

xTAx 0

奇异值分解 (SVD)

SVD 是任何尺寸为 n x p 的矩形矩阵 A 的分解,表示为三个矩阵的乘积:

奇异值分解 (SVD)

U 被定义为 n x nS 是一个对角 n x p 矩阵,Vp x pUV 是正交矩阵;即:

奇异值分解 (SVD)

S 的对角值称为 A 的奇异值。U 的列称为 A 的左奇异向量,而 V 的列称为 A 的右奇异向量。左奇异向量是 ATA 的正交归一特征向量,右奇异向量是 AAT 的正交归一特征向量。

SVD 表示将原始数据扩展到一个坐标系中,使得协方差矩阵是一个对角矩阵。

附录 B. 概率

这里简要介绍了概率中的基本概念。

概率公理

科尔莫哥洛夫概率公理可以用可能事件样本空间 SE1、E2、E3、…En 和事件 E 的实值概率 P(E) 来表述。公理如下:

  1. P(E) ≥ 0 for all E ϵ S

  2. P(S) = 1

  3. 概率公理

这些公理共同表明,概率不能是负数——不可能事件具有零概率——样本空间之外的事件不可能发生,因为它是在考虑的可能性宇宙,以及两个互斥事件中任意一个发生的概率等于它们各自概率之和。

贝叶斯定理

在给定证据 X 的条件下,事件 E 的概率与该事件先验概率和证据的似然性成正比。这就是贝叶斯定理:

贝叶斯定理

P(X) 是归一化常数,也称为 X 的边缘概率。P(E) 是先验,P(X|E) 是似然。P(E|X) 也称为后验概率。

以后验和先验概率比的形式表达的贝叶斯定理被称为贝叶斯法则。

密度估计

从从总体中随机抽取的样本数据中估计随机变量的隐藏概率密度函数称为密度估计。高斯混合和核密度估计是特征工程、数据建模和聚类中使用的例子。

给定随机变量 X 的概率密度函数 f(X),可以找到与 X 的值相关的概率如下:

密度估计

密度估计可以是参数化的,其中假设数据来自已知的分布族,f(x) 通过估计分布的参数来估计,例如,在正态分布的情况下,估计 µ 和 σ²。另一种方法是非参数化的,其中不对观测数据的分布做出假设,并允许数据确定分布的形式。

均值

随机变量的长期平均值称为期望或均值。样本均值是对观测数据的相应平均值。

对于离散随机变量,均值由以下公式给出:

均值

例如,掷一个公平骰子时,出现点数的平均值是 3.5。

对于具有概率密度函数 f(x) 的连续随机变量,其均值是:

均值

方差

方差是随机变量与其均值之间差的平方的期望。

在离散情况下,根据之前讨论的均值定义,以及概率质量函数 p(x),方差是:

方差

在连续情况下,如下所示:

方差

一些连续分布没有均值或方差。

标准差

标准差是衡量数据相对于其均值分散程度的一个指标。它是方差的平方根,与方差不同,它以与数据相同的单位表示。离散和连续随机变量的标准差在此给出:,

  • 离散情况:标准差

  • 连续情况:标准差

高斯标准差

从更大的总体中随机抽取的样本的标准差是对总体标准差的有偏估计。基于特定的分布,对这个有偏估计的校正可能不同。对于高斯或正态分布,方差通过高斯标准差 的值进行调整。

根据前面给出的定义,有偏估计 s 如下:

高斯标准差

在前面的公式中,高斯标准差 是样本均值。

使用贝塞尔校正的无偏估计如下:

高斯标准差

协方差

在两个随机变量的联合分布中,随机变量偏离各自均值的乘积的期望值称为协方差。因此,对于两个随机变量 XY,方程如下:

协方差

= E[XY] – μx μy

如果两个随机变量是独立的,那么它们的协方差为零。

相关系数

当协方差通过两个随机变量的标准差乘积进行归一化时,我们得到相关系数 ρ[X,Y],也称为皮尔逊积矩相关系数:

相关系数

相关系数只能取介于 -1 和 1 之间的值。+1 的系数表示随机变量之间完美的线性增加关系。-1 表示完美的线性减少关系。如果两个变量相互独立,则皮尔逊系数为 0。

二项分布

具有参数 np 的离散概率分布。一个随机变量是一个二元变量,在单次试验中,其结果概率由 p1 – p 给出。概率质量函数给出了在 n 次独立试验中 k 次成功的概率。

参数:n, k

PMF:

二项分布

其中:

二项分布

这就是二项系数。

均值:E[X] = np

方差:Var(X) = np(1 – p)

泊松分布

泊松分布给出了在给定时间段或空间区域内发生事件的次数的概率。

参数 λ,是给定区间内平均发生次数。在该区间内观察到 k 事件的概率质量函数为

PMF:

泊松分布

均值:E[X] = λ

方差:Var(X) = λ

高斯分布

高斯分布,也称为正态分布,是一种连续概率分布。其概率密度函数如下表示,以均值和方差为参数:

高斯分布

均值:µ

标准差:σ

方差:σ²

标准正态分布是均值等于 0 且标准差等于 1 的情况。标准正态分布的概率密度函数如下给出:

高斯分布

中心极限定理

中心极限定理表明,当你有几个独立且同分布的随机变量,且其分布具有明确的均值和方差时,大量这些观测值的平均值(或总和)近似服从正态分布,无论父分布如何。此外,极限正态分布具有与父分布相同的均值,方差等于基础方差除以样本大小。

给定一个随机样本 X1, X2, X3 … Xn,其中 µ = E[Xi] 和 σ2 = Var(Xi*)*,样本均值:中心极限定理

大约服从正态分布 中心极限定理

在中心极限定理的几个变体中,放宽了独立性或相同分布的约束,但仍然收敛到正态分布。

误差传播

假设存在一个随机变量 X,它是多个观测值的函数,每个观测值都有自己的分布。在给定 X 组成量的测量值的情况下,关于 X 的均值和方差可以说明什么?这就是误差传播的问题。

假设 x 是通过观察变量 uv 等确定的量:

x = f(u, v, ...)

让我们假设:

误差传播

x 的不确定性可以用 uv 等的方差来表示:

误差传播

x 的方差的泰勒展开中,我们得到以下结果:

误差传播

这里,误差传播 是协方差。

同样,我们可以确定均值的传播误差。给定 N 个测量值,每个测量值为 x[i],其不确定性由 si 表示,可以写成以下形式:

误差传播

其中:

误差传播

这些方程假设协方差为 0。

假设 si = s – 即,所有观测值都有相同的误差。

然后,误差传播

由于 误差传播

因此,误差传播