机器学习之基本数学知识

1,305 阅读4分钟

在学习机器学习的过程中,经常遇到一些符号和向量的计算,自己在阅读资料的过程中经常需要去查符号的意思,比较浪费时间。这里打算做个统计,大概分为数学符号的表示, 代数和微积分,保持更新。

数学符号

集合和区间

\mathbb{Z}: 整数集:{...-2, -1, 0, 1, 2...}
\mathbb{N}: 自然数集:{0,1, 2,3....}
\mathbb{N}^{+}: 不包括零的自然数集:{1, 2,3...}
\mathbb{R}: 实数集
\in: 集合内元素符号.比如:$\in$A 表示x是集合A中的一个元素
\notin: 与上面相反,不是集合内的元素
\varnothing: 空集或者null集
A \cup B: A, B集合的并集
A \cap B: A, B集合的交集
A \subseteq: A是B的子集
A\bigtriangleupB: 两个集合的对称差:只属于其中一个集合,而不属于另一个集合的元素组成的集合。例如:集合{1,2,3} 和集合{3,4}的对称差是{1, 2, 4}。
\left | A \right |: 集合A的基数(元素的个数)
\left(a,b  \right): 从a到b的开区间,不包括a, b.
\left [ a, b \right ]: 从a到b的闭区间, 包括a,b.

序列

\sum _{i=1}^{n}x_{i}: 下标变量x_{i}的和,等于 x_{1} + x_{2} + ... + x_{n}
\prod_{i=1}^{n}x_{i}: 下标变量x_{i}的积,等于 x_{1} * x_{2} * ... * x_{n}

函数

f:A \rightarrow  B: 表示函数f, 定义域A和值域B。
\left(g \circ f \right)\left(x \right): 两个函数g和f和组合形式: g[f(x)]
f^{-1}(x): 函数f的逆, 如果f^{-1}表示y, 那么f(y)=x
|x|: x的绝对值, 注意与集合的区别
log_{b},   log: 底数为b的对数和自然对数(底数为e)
n!: n的阶乘
\binom{k}{n}: 二项式系数(n选择k): = \frac{n!}{k!(n-k)!} (0\leq k\leq n)
arg  max f(x): 使f(x)尽可能的大的x值

线性代数

x: 标量,小写的斜体 \mathbf{x}: 列向量(小写,粗体, n * 1的矩阵)
\mathbf{a} \cdot \mathbf{b}: 两个向量的点积。 如果a和b都是n * 1的矩阵,也写作 \mathbf{a}^{\boldsymbol{\mathbf{T}}} \mathbf{b}
=\sum _{i=1}^{n}a_{i}b_{i}
\mathbf{X}: m * n的矩阵,大写粗体
\mathbb{R}^{n}: 坐标空间, 有n个长度的列向量表示。
\mathbf{x} = \begin{bmatrix}x_{1}\\ x_{2}\\ ...\\ x_{n}\end{bmatrix}
\mathbf{x}^T : n*1向量的转置。
\mathbf{x}^{T} =\begin{bmatrix} x_{1}&  x_{2}& ...& x_{n}\end{bmatrix} =  \begin{bmatrix}x_{1}\\ x_{2}\\ ...\\ x_{n}\end{bmatrix}^{T}
\left \| \mathbf{x} \right \|_{p}: Lp norm,p-norm向量。
\left \| \mathbf{x} \right \|_{p} = (|x_{1}^{p}| + |x_{2}^{p}| + ... + |x_{n}^{p}|)^{1/p}
\left \| \mathbf{x} \right \|_{\infty }: 最大norm, 向量绝对值的最大值. =max|x_{i}|
\left \| \mathbf{x} \right \|_{2}: 向量norm, l2norm。=||\mathbf{x}||_{2}

A_{i,:}: 矩阵的第i行
A_{:,j}: 矩阵的第j列
A^{T}: 矩阵的转置矩阵。 A_{i, j}  \rightarrow A_{T}^{j, i}
I_n: n*n的单位矩阵。
I_3 = \begin{bmatrix}1 &0  &0 \\ 0& 1 & 0\\  0&0  &1 \end{bmatrix}
A^{-1}: A矩阵的逆矩阵, A^{-1}A = AA^{-1} = I
tr A: 矩阵的迹。 主对角的元素和(左上到右下)
det A: 矩阵A的行列式
diag(a_1, a_2, ..., a_n): 对角矩阵,矩阵的对角线为a1, a2, a3.., 其他元素为0的矩阵。
A\odot B: Hadamard乘积,矩阵对应元素的乘积

微积分

\underset{x\to a}{\lim{}}f(x): 当x趋于a时f (x)的极限
\underset{x\to a-}{\lim{}}f(x): 当x从左边趋于a时f (x)的极限
\underset{x\to a+}{\lim{}}f(x): 当x从右边趋于a时f (x)的极限

\frac{\mathrm{d} f}{\mathrm{d} x}: f函数的导数
\frac{\mathrm{d^n} f}{\mathrm{d} x^n}: f函数的n阶导数
\frac{\partial f}{\partial x}: 函数f(x, y..)对标量x的偏导数。

\triangledown f: 函数f: \mathbb{R}^n \to \mathbb{R}的梯度, 分别是对每个变量的偏导数。
\triangledown f(x_1, x_2, ..., x_n) = \begin{bmatrix}\frac{\partial f}{\partial x_1}\\ \frac{\partial f}{\partial x_2}\\ ... \\\frac{\partial f}{\partial x_4}\end{bmatrix}
\triangle f: 函数f 的laplacian的算子
\triangle f = \sum _{i=1}^{n}\frac{\partial^2 f}{\partial x^2}

\int f(x)dx: 函数f(F的导数)的不定积分。
\int_{a}^{b}f(x)dx

概率与统计

P(A\cap B): 事件A和B共同发生的概率
P(A\cup B): 事件A或者B发生的概率
P(A|B): 给定B条件,A发生的概率
E(x),\mu_X: 随机变量X的期望值(平均值), 对于离散变量X, E(X)=\sum _{i=1}^{\infty}p_ix_i。表示xi发生的概率pi
\bar{X}: 样本数值数据的平均值
var(X), \sigma_x^2: 数值数据的方差。
var(X)=E[(X-\mu_X)^2] = E(X^2) - E(X)^2
s_X^2: 样本数值数据的方差:
s_X^2 = \frac{1}{n}\sum _{i=1}^{n}(X_i- \bar{X})^2
std(X), \sigma_x: 随机变量的标准差,方差的平方根
s_X: 样本标准差,样本s_X^2方差的平方根

cov(X, Y): 两个随机变量X和Y的协方差 cov(X,Y) = E[(X-E(X))(Y-E(Y))] = E(XY)-E(X)E(Y)
s_{XY}: 数值数据的样本协方差
s_{XY} = \frac{1}{n}\sum _{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})
corr(X, Y): 两个随机变量X和Y的相关系数。
=\frac{cov(X, Y)}{\sigma_x \sigma_Y}.
H(X): 随机变量X的熵。
离散:H(X)=-\sum _xP(X=x)\log_bP(X=x)
连续: H(x)=-\int_{-\infty}^{\infty}f(x)\log_bf(x)dx

PMF: 离散随机变量的概率质量函数,f(x)=P(X=x)
CDF: 连续随机变量的累积分布函数, F(x)=P(X\leq x)
PDF: 连续随机变量的概率密度函数: P(X\in [a,b]) = \int_{a}^{b}f(x)dx

X ~ D: 随机变量X的分布D。
\hat{\theta}: 参数的估计量(estimator)。
N(x, \mu, \sigma^2): 随变量x的正态(高斯)分布,均值为\mu, 方差为\sigma^2。 常用的有N(x, 0, 1).

数字

小小于
e: 欧拉数,数学常数近似于2.71828。
\pi: 'pi', 数值场数,近似于3.1415926.
\infty: 无穷大符号
1.234*10^5: 科学计数法, 表示123,400 或者 1.234E05
\ll: 小小于

近似

\approx: 大致相等。e\approx 2.71828.
f(x)\sim g(x): 表示两个函数的比值接近1. 如果x很小, \lim_{x\to 0}\frac{f(x)}{g(x)}=1; 如果x很大, \lim_{x\to \infty}\frac{f(x)}{g(x)}=1

f(x) \propto g(x): 两个函数是成比例的
T\in O(n^2): 大O计数法:表示有n^2种算法;或者算法的复杂度为n^2

逻辑

\Rightarrow: implication 操作。比如A\Rightarrow B 表示"if A implies B", “if A then B”, "B only if A"
\Leftrightarrow: 相等操作符。 "A if and only if B" 或者 "if A then B and if B then A"

\wedge: 逻辑连接 and。
\vee: or。
\forall: 全称量词,for all。 比如\forall x \in \mathbb{R}, x > 1:对于所有的x属于R,都有x>1.
\exists: 存在量词,exists。 比如 \forall x \in \mathbb{A}, f(x):A集合中存在x, 是的f(x)为true。