吴恩达机器学习:无监督学习算法

1,150 阅读7分钟
原文链接: hertzcat.com

吴恩达机器学习:无监督学习算法

西部世界 第二季刚好放到第七集,课程总结也刚好是第七次。我们关于 监督学习 的课程已经告一段落,这次 Ng 将给我们介绍两个很常用的 无监督学习 算法。一个是用来将数据划分到不同类别的 k-means 算法,一个是用来提取重要特征并给特征降维的 PCA 算法。

点击 课程视频 你就能不间断地学习 Ng 的课程,关于课程作业的 Python 代码已经放到了 Github 上,点击 课程代码 就能去 Github 查看( 无法访问 Github 的话可以点击 Coding 查看 ),代码中的错误和改进欢迎大家指出。

以下是 Ng 机器学习课程第七周的笔记。

聚类

我们经常会给事物做分类,把特征相近的东西归为一类。而 无监督学习 中的聚类正是想让计算机来完成这个工作。用数学语言表达就是要把每个特征数据 x ( i ) " role="presentation">x^{(i)} 分配到 c ( i ) " role="presentation">c^{(i)} 中。让我们看下课程作业中的聚类任务来有个直观的感受。( 下图是将数据分为三个簇 )

代价函数

假设要将数据分到 k" role="presentation">k,选取的中心分别为 μ 1 , μ 2 , . . . , μ k " role="presentation">\mu_1,\mu_2,...,\mu_k。我们的代价函数就是要将每个特征与被分配到的簇的中心之间的距离和最小化( 直观来说就是凑得近的分一起 )。

J ( c ( 1 ) , c ( 2 ) , . . . , c ( m ) ; μ 1 , μ 2 , . . . , μ k ) = 1 m ∑ i = 1 m | | x ( i ) − μ c ( i ) | | 2 " role="presentation">J(c(1),c(2),...,c(m);μ1,μ2,...,μk)=1mm∑i=1||x(i)−μc(i)||2J(c(1),c(2),...,c(m);μ1,μ2,...,μk)=1m∑i=1m||x(i)−μc(i)||2

可以看出 代价函数 一方面取决于 x ( i ) " role="presentation">x^{(i)} 的分配,一方面取决于 中心的位置。

k-means

下面我们先来看下 k-means 的算法,然后来解释它是如何优化 代价函数 的。

随机选择 k" role="presentation">k 的中心 μ 1 , μ 2 , . . . , μ k " role="presentation">\mu_1,\mu_2,...,\mu_k
重复下面步骤直到收敛:

  1. 对于每个 x ( i ) " role="presentation">x^{(i)},计算 c ( i ) " role="presentation">c^{(i)} ( x ( i ) " role="presentation">x^{(i)} 距离第 j" role="presentation">j 个簇的中心最近,则 c ( i ) = j" role="presentation">c^{(i)}=j
  2. 更新 μ k " role="presentation">\mu_k ( 新 μ k " role="presentation">\mu_k 为所有满足 c ( i ) = k" role="presentation">c^{(i)}=k 的 x ( i ) " role="presentation">x^{(i)} 的中心 )

对于步骤 1" role="presentation">1 来说,我们固定了 μ 1 , μ 2 , . . . , μ k " role="presentation">\mu_1,\mu_2,...,\mu_k,并为每个 x ( i ) " role="presentation">x^{(i)} 选取了距离最近的 ,这使得 代价函数 减小。对于步骤 2" role="presentation">2,我们固定了 c ( 1 ) , c ( 2 ) , . . . , c ( m ) " role="presentation">c^{(1)},c^{(2)},...,c^{(m)},并将 μ k " role="presentation">\mu_k 移动到了各个分类的中心,这也使得 代价函数 减小。因此随着不断循环这个过程,我们将得到一个最优解( 也可能是局部最优 )。

相关问题

k-means 算法挺好理解的,最后我们来说说簇中心的初始化与 k" role="presentation">k 的选择问题。对于簇中心的初始化,一般直接随机选 k" role="presentation">k 个数据为中心,选比如说 100 次并计算 代价函数 的值,选择其中最小的那一次的结果。
对于 k" role="presentation">k 的选择,一方面可以运用 肘部法则,原理是 代价函数 一开始会随着 k" role="presentation">k 的增大下降的很快,但过了某个值之后下降变缓,我们选择这个点的 k" role="presentation">k 值。另一方面我们可以根据自己的业务需求来选择 k" role="presentation">k( 业务就是需要分为 k" role="presentation">k 个类的情况 )。

降维

在机器学习中,降低特征的维度能够给我们带来很多好处。首先降低特征的维度可以提升学习的效率。其次降维可以让我们的注意力集中在重要的特征上。再有降维也可以作为一种数据压缩的方法。这里将要学习的降维算法被称作 主成分分析PCA )。

协方差

在统计学中,协方差 表现了两组数据之间的关联性( 当数据为同一个是就是 方差 )。为了了解 协方差 与降维算法的关系,我们先来看简单的二维情况。假设我们的数据有两个特征( 如图 ),并且已经做过 标准化。红色的数据点在这个坐标系下呈现出明显的先关性( 协方差 大 )。

线性代数 的知识可以知道,我们可以使用不同的 ( 特征 )来表示这些数据,如图中的绿色坐标和蓝色坐标。通过直觉可以发现如果将数据投影到较长的蓝色坐标上来降维是更为合适的选择。事实上这也是使得 协方差 最小的选择,协方差 的最小化让每个特征和其它特征的关系性降到最低,使得每个特征被独立地表达,而降维就是从中选出贡献( 方差 )比较大的特征。对于数据 X" role="presentation">X( 这里的 X" role="presentation">X 和课程作业中的不同,每列表示一个数据 ),特征间的 协方差 可以表示为 协方差矩阵

C = 1 m X T X = 1 m [ ∑ i = 1 m ( x 1 ( i ) ) 2 ∑ i = 1 m ( x 1 ( i ) x 2 ( i ) ) ∑ i = 1 m ( x 2 ( i ) x 1 ( i ) ) ∑ i = 1 m ( x 2 ( i ) ) 2 ] " role="presentation">C=1mXTX=1m⎡⎢ ⎢ ⎢ ⎢⎣m∑i=1(x(i)1)2m∑i=1(x(i)1x(i)2)m∑i=1(x(i)2x(i)1)m∑i=1(x(i)2)2⎤⎥ ⎥ ⎥ ⎥⎦C=1mXTX=1m[∑i=1m(x1(i))2∑i=1m(x1(i)x2(i))∑i=1m(x2(i)x1(i))∑i=1m(x2(i))2]

协方差矩阵 对角线上的元素是数据在各个特征上的 方差,其余是特征之间的 协方差。于是降维的目标就成了找到一个基变换让 协方差矩阵 里除了对角线上的值,其余的都尽可能小。不过在下面的讨论中,我们会知道可以找到一组 使得变换后的 协方差 除了对角线上的值,其余都为 0。

SVD

假设我们的数据 X" role="presentation">X 通过基变换映射到了 Y" role="presentation">Y, Y = P X" role="presentation">Y=PX, Y" role="presentation">Y协方差 D" role="presentation">D 为:

D = 1 m Y Y T = 1 m ( P X ) ( P X ) T = 1 m P X X T P T = P ( 1 m X X T ) P T = P C P T " role="presentation">D=1mYYT=1m(PX)(PX)T=1mPXXTPT=P(1mXXT)PT=PCPTD=1mYYT=1m(PX)(PX)T=1mPXXTPT=P(1mXXT)PT=PCPT

到这里就可以看出我们能够利用 矩阵对角化 的方法来得到 D" role="presentation">D,就是存在单位正交特征向量 E" role="presentation">E,使得 E T C E = Λ" role="presentation">E^{T}CE=\Lambda,其中 Λ" role="presentation">\Lambda对角矩阵。通过这种方法可以得到基 P = E T " role="presentation">P=E^{T},而 Λ" role="presentation">\Lambda 对角上的元素表示各个特征的贡献大小。不过我们还可以通过 矩阵分解 的技巧来解决这个问题,使用 SVD 来分解矩阵的话有 X = U Σ V T " role="presentation">X=U \Sigma V^T,经过推导可以得到:

X X T = ( U Σ V T ) ( U Σ V T ) T = ( U Σ V T ) ( V Σ U T ) = U Σ 2 U T " role="presentation">XXT=(UΣVT)(UΣVT)T=(UΣVT)(VΣUT)=UΣ2UTXXT=(UΣVT)(UΣVT)T=(UΣVT)(VΣUT)=UΣ2UT

所以可以取 P = U T " role="presentation">P=U^{T},而 D = 1 m Σ 2 " role="presentation">D=\frac{1}{m} \Sigma^2。对于降维,只要取 D" role="presentation">D 中占比比较高的特征对应的 ,也就是 P" role="presentation">P 的一部分 P ′ " role="presentation">P',对应的数据也变为了 Y ′ " role="presentation">Y'。对于数据恢复,可以通过简单的推导得到 X 恢 复 = P ′ T Y ′ " role="presentation">X_{恢复}=P'^TY'

课外阅读

关于 PCA 的内容,我觉得有两篇文章对我很有帮助,在这里分享给大家:PCA的数学原理谈谈矩阵的 SVD 分解

So~,第七周的内容就是这些了,谢谢大家耐心阅读。


hertzcat

2018-06-05