机器学习与深度学习中的数学其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》，清华大学出版社

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》，清华大学出版社，雷明著，由SIGAI公众号作者倾力打造。

清华科技大讲堂是清华大学出版社创建的直播栏目，每周邀请业界知名的教授、专家针对前沿技术、IT 人才培养等话题与观众进行深入交流。雷明老师近日受邀在清华大学出版社参加直播录制，借助此次活动，与大家一起探讨机器学习与深度学习中的数学部分。很多同学都观看了直播，热度非常高，特此将直播讲稿发布，希望能帮助同学们更快进步。

雷明清华大学出版社《机器学习-原理、算法与应用》作者

2009年毕业于清华大学计算机系，研究方向为计算机视觉/机器学习，发表论文数篇，曾就职于百度，任软件工程师/项目经理；zmodo/meshare，任CTO（创业）2018年创立SIGAI，致力于研发机器视觉、深度强化学习框架，用标准化的算法为各个行业赋能，目前已经应用于物流，商业，国防等领域

内容提要

需要哪些数学知识

微积分

线性代数与矩阵论

概率论

信息论

最优化方法

随机过程

图论

需要哪些数学知识

现状分析

数学是给机器学习、深度学习的初学者和进阶者造成困难的主要原因之一

国内本科数学教学方式、学生学习质量上存在的不足-过于抽象，偏重于计算，忽视了对数学思维、建模能力的培养-清华大学换用国外线性代数教材事件，如果结合一些具体的例子来讲解会好很多

某些数学知识超出了本科一般理工科专业的范畴 - 矩阵论/矩阵分析，信息论，最优化方法，随机过程，图论

通常情况下，高校、其他机构在教《机器学习》、《深度学习》之前不会为学生把这些数学知识补齐学生普遍对数学存在一种恐惧心理，数学自信的人只占少部分

究竟需要哪些数学知识？

1.微积分-一元函数微积分，多元函数微积分，是整个高等数学的基石

2.线性代数与矩阵论-矩阵论本科一般不讲

3.概率论-内容基本已经覆盖机器学习的要求

4.信息论 - 一般专业不会讲，如果掌握了概率论，理解起来并不难

5.最优化方法 - 学了这门课的学生非常少，但对机器学习、深度学习非常重要，几乎所有算法归结为求解优化问题

6.随机过程-本科一般不学，但在机器学习中经常会使用，如马尔可夫过程，高斯过程，后者应用于贝叶斯优化

7.图论-计算机类专业本科通常会学，但没有学谱图理论

第1部分-微积分

为什么需要微积分？

研究函数的性质 - 单调性，凹凸性

求解函数的极值

概率论、信息论、最优化方法等的基础

一元函数微积分

极限 - 微积分的基石，数列的极限，函数的极限

函数的连续性与间断点

上确界与下确界

Lipschitz连续性

导数，一阶导数，高阶导数，导数的计算-符号微分，数值微分，自动微分

导数与函数的性质，单调性，极值，凹凸性

泰勒公式

不定积分及其计算

定积分及其计算

广义积分及其计算

常微分方程的基本概念

常系数线性微分方程的求解

$(f(g(x)))^{\prime}=f^{\prime}(g) g^{\prime}(x)$

复合函数的求导公式

$f(x)=f(a)+\frac{f^{\prime}(a)}{1 !}(x-a)+\frac{1}{2} f^{\prime \prime}(a)(x-a)^{2}+\ldots+\frac{1}{n !} f^{(n)}(a)(x-a)^{n}+R_{n}(x)$

一元函数的泰勒公式-连接一元函数微分学各知识点的桥梁

多元函数微积分

偏导数的定义与计算

梯度的定义与性质

方向导数的定义与性质

高阶偏导数的计算

链式法则 - 熟练计算多元函数的偏导数

雅克比矩阵 - 链式法则的矩阵形式

Hessian矩阵与多元函数的极值，凹凸性

向量与矩阵求导公式

多元函数的泰勒公式

重积分二重积分，三重积分，n重积分，多重积分的坐标变换

偏微分方程的基本概念

$\begin{array}{l}{z=f\left(y_{1}, \ldots, y_{m}\right)} \\ {y_{j}=g_{j}\left(x_{1}, \ldots, x_{n}\right), j=1, \ldots, m}\end{array}$

$\left[\begin{array}{c}{\frac{\partial z}{\partial x_{1}}} \\ {\cdots} \\ {\frac{\partial z}{\partial x_{n}}}\end{array}\right]=\left[\begin{array}{c}{\sum_{j=1}^{m} \frac{\partial z}{\partial y_{j}} \frac{\partial y_{j}}{\partial x_{1}}} \\ {\cdots} \\ {\sum_{j=1}^{m} \frac{\partial z}{\partial y_{j}} \frac{\partial y_{j}}{\partial x_{n}}}\end{array}\right]=\left[\begin{array}{ccc}{\frac{\partial y_{1}}{\partial x_{1}}} & {\cdots} & {\frac{\partial y_{m}}{\partial x_{1}}} \\ {\cdots} & {\cdots} & {\cdots} \\ {\frac{\partial y_{1}}{\partial x_{n}}} & {\cdots} & {\frac{\partial y_{m}}{\partial x_{n}}}\end{array}\right]\left[\begin{array}{c}{\frac{\partial z}{\partial y_{1}}} \\ {\cdots} \\ {\frac{\partial z}{\partial y_{m}}}\end{array}\right]$

$=\left(\frac{\partial \mathbf{y}}{\partial \mathbf{x}}\right)^{\mathrm{T}}\left[\begin{array}{c}{\frac{\partial z}{\partial y_{1}}} \\ {\cdots} \\ {\frac{\partial z}{\partial y_{m}}}\end{array}\right]$

链式法则的矩阵形式

$f(\mathbf{x})=f(\mathbf{a})+(\nabla f(\mathbf{a}))^{\mathrm{T}}(\mathbf{x}-\mathbf{a})+\frac{1}{2}(\mathbf{x}-\mathbf{a})^{\mathrm{T}} \mathbf{H}(\mathbf{x}-\mathbf{a})+o\left(\|\mathbf{x}-\mathbf{a}\|^{2}\right)$

多元函数的泰勒公式-连接多元函数微分学各知识点的桥梁

第2部分-线性代数与矩阵论

为什么需要线性代数？

机器学习算法的输入、输出、中间结果，通常为向量，矩阵，张量

简化问题的表达

与微积分结合，研究多元函数的性质，也是概率论中随机向量的基础

在图论中亦有应用 - 图的拉普拉斯矩阵

在随机过程中同样有应用 - 状态转移矩阵

向量的定义与基本运算，向量的范数

线性相关性

向量空间

矩阵的定义及其运算

矩阵的范数

线性变换

行列式的定义与计算

线性方程组齐次，非齐次

特征值与特征值向量

广义特征值

Rayleigh商

谱与条件数

二次型与标准型

Cholesky分解

特征值分解

奇异值分解

$\begin{aligned} \mathbf{u}^{(l)} &=\mathbf{W}^{(l)} \mathbf{x}^{(l-1)}+\mathbf{b}^{(l)} \\ \mathbf{x}^{(l)} &=f\left(\mathbf{u}^{(l)}\right) \end{aligned}$

正向传播算法

$\begin{array}{l}{\boldsymbol{\delta}^{(l)}=\left(\mathbf{W}^{(l+1)}\right)^{\mathrm{T}} \boldsymbol{\delta}^{(l+1)} \odot f^{\prime}\left(\mathbf{u}^{(l)}\right)} \\ {\nabla_{\mathbf{w}^{(l)}} L=\boldsymbol{\delta}^{(l)}\left(\mathbf{x}^{(l-1)}\right)^{\mathrm{T}}} \\ {\nabla_{\mathbf{b}^{(l)}} L=\boldsymbol{\delta}^{(l)}}\end{array}$

反向传播算法

$\mathbf{S e}=\lambda \mathbf{e}$

主成分分析

$\mathbf{L} \mathbf{f}=\lambda \mathbf{D} \mathbf{f}$

拉普拉斯特征映射

$\mathbf{X L X}^{\mathrm{T}} \mathbf{a}=\lambda \mathbf{X} \mathbf{D} \mathbf{X}^{\mathrm{T}} \mathbf{a}$

局部保持投影

第3部分-概率论

为什么需要概率论？

将机器学习算法的输入、输出看作随机变量/向量，用概率论的观点进行建模

对不确定性进行建模

挖掘变量之间的概率依赖关系

随机算法 - 蒙特卡洛算法，遗传算法

随机数生成 - 基本随机数生成，采样算法

随机事件与概率

条件概率

全概率公式

贝叶斯公式

条件独立

离散型随机变量

连续型随机变量

数学期望与方差，标准差

Jesen不等式

Hoeffding不等式

常用概率分布均匀分布，伯努利分布，二项分布，多项分布，正态分布，狄拉克分布， t分布

随机变量函数

逆变换算法

离散型随机向量

连续型随机向量

联合期望

协方差

常用概率分布均匀分布，正态分布

分布变换

极限定理切比雪夫不等式，大数定律，中心极限定理

参数估计最大似然估计，最大后验概率估计，贝叶斯估计，核密度估计

随机算法基本随机数生成，遗传算法，蒙特卡洛算法

采样算法拒绝采样，重要性采样

$\begin{array}{l}{p(y | \mathbf{x})=\frac{p(\mathbf{x} | y) p(y)}{p(\mathbf{x})}} \\ {\arg \max _{y} p(\mathbf{x} | y) p(y)}\end{array}$

贝叶斯分类器

$p(\mathbf{x})=\sum_{i=1}^{k} w_{i} N\left(\mathbf{x} ; \boldsymbol{\mu}_{i}, \mathbf{\Sigma}_{i}\right)$

第4部分-信息论

香浓熵

交叉熵

KL散度

JS散度

联合熵

互信息

条件熵

$\prod_{i=1}^{l}\left(\prod_{j=1}^{k}\left(\frac{\exp \left(\boldsymbol{\theta}_{j}^{\mathrm{T}} \mathbf{x}_{i}\right)}{\sum_{t=1}^{k} \exp \left(\boldsymbol{\theta}_{t}^{\mathrm{T}} \mathbf{x}_{i}\right)}\right)^{y_{i j}}\right)$

$\sum_{i=1}^{l} \sum_{j=1}^{k}\left(y_{i j} \ln \frac{\exp \left(\boldsymbol{\theta}_{j}^{\mathrm{T}} \mathbf{x}_{i}\right)}{\sum_{t=1}^{k} \exp \left(\boldsymbol{\theta}_{t}^{\mathrm{T}} \mathbf{x}_{i}\right)}\right)$

softmax回归

$\begin{aligned} p_{j | i} &=\frac{\exp \left(-| \mathbf{x}_{i}-\mathbf{x}_{j} \|^{2} / 2 \sigma_{i}^{2}\right)}{\sum_{k \neq i} \exp \left(-\left\|\mathbf{x}_{i}-\mathbf{x}_{k}\right\|^{2} / 2 \sigma_{i}^{2}\right)} \\ q_{j i} &=\frac{\exp \left(-\left\|\mathbf{y}_{i}-\mathbf{y}_{j}\right\|^{2}\right)}{\sum_{k \neq i} \exp \left(-\left\|\mathbf{y}_{i}-\mathbf{y}_{k}\right\|^{2}\right)} \end{aligned}$

$L\left(\mathbf{y}_{i}\right)=\sum_{i=1}^{l} K L\left(P_{i} | Q_{i}\right)=\sum_{i=1}^{l} \sum_{j=1}^{l} p_{j l} \log \frac{p_{j k}}{q_{j k}}$

流形学习-SNE降维

$\min _{G} \max _{D} V(D, G)=\mathrm{E}_{\mathbf{x} \sim p_{\text {data}}(\mathbf{x})}[\ln D(\mathbf{x})]+\mathrm{E}_{\mathbf{z} \sim p_{\mathbf{z}}(\mathbf{z})}[\ln (1-D(G(\mathbf{z})))]$

$\begin{aligned} C(G) &=-\ln 4+\ln 4+\mathrm{E}_{\mathrm{x}-p_{\text {data }}(\mathrm{x})}\left[\ln \frac{p_{\text {data }}(\mathbf{x})}{p_{\text {data }}(\mathbf{x})+p_{g}(\mathbf{x})}\right]+\mathrm{E}_{\mathbf{z}-p_{\mathbf{g}}(\mathbf{z})}\left[\ln \frac{p_{g}(\mathbf{x})}{p_{\text {data }}(\mathbf{x})+p_{g}(\mathbf{x})}\right] \\ &=-\ln 4+\mathrm{E}_{\mathbf{x}-p_{\text {data }}(\mathrm{x})}\left[\ln \frac{2 p_{\text {data }}(\mathbf{x})}{p_{\text {data }}(\mathbf{x})+p_{g}(\mathbf{x})}\right]+\mathrm{E}_{\mathbf{z}-p_{\mathbf{g}}(\mathrm{z})}\left[\ln \frac{2 p_{g}(\mathbf{x})}{p_{\text {data }}(\mathbf{x})+p_{g}(\mathbf{x})}\right] \\ &=-\ln 4+D_{\mathrm{KL}}\left(p_{\text {data }} \| \frac{p_{\text {data }}+p_{g}}{2}\right)+D_{\mathrm{KL}}\left(p_{g} | \frac{p_{\text {data }}+p_{g}}{2}\right) \\ &=-\ln 4+2 D_{\mathrm{JS}}\left(p_{\text {data }} \| p_{g}\right) \end{aligned}$

生成对抗网络

第5部分-最优化方法

基本概念问题定义，迭代法的基本思想

梯度下降法

最速下降法

梯度下降法的各种改进 AdaGrad，AdaDelta， Adam

随机梯度下降法

牛顿法

拟牛顿法 DFP， BFGS， L-BFGS

分治法坐标下降法，分阶段优化

凸优化定义与性质

拉格朗日乘数法

拉格朗日对偶

KKT条件

多目标优化基本概念，求解算法

泛函与变分

Euler-Lagrange方程

$\begin{array}{l}{L(W)=\frac{1}{2 m} \sum_{i=1}^{m}\left\|h\left(\mathbf{x}_{i}\right)-\mathbf{y}_{i}\right\|^{2}} \\ {W_{t+1}=W_{t}-\eta \nabla_{W} L\left(W_{t}\right)}\end{array}$

神经网络的训练

$\begin{array}{l}{\max _{m} \operatorname{ACC}(m) \times\left[\frac{\operatorname{LAT}(m)}{T}\right]^{w}} \\ {w=\left\{\begin{array}{l}{\alpha, \operatorname{LAT}(m) \leq T} \\ {\beta, \operatorname{LAT}(m)>T}\end{array}\right.}\end{array}$

多目标神经结构搜索

$\begin{array}{l}{F[y]=\int_{a}^{b} \sqrt{1+y^{2}} d x} \\ {\frac{d}{d x} \frac{y^{\prime}}{\sqrt{1+y^{2}}}=0} \\ {y(x)=\frac{C}{\sqrt{1-C^{2}}} x+C^{\prime}}\end{array}$