机器学习之基本数学知识在学习机器学习的过程中，经常遇到一些符号和向量的计算，自己在阅读资料的过程中经常需要去查符号的意思

在学习机器学习的过程中，经常遇到一些符号和向量的计算，自己在阅读资料的过程中经常需要去查符号的意思，比较浪费时间。这里打算做个统计，大概分为数学符号的表示，代数和微积分，保持更新。

数学符号

集合和区间

$\mathbb{Z}$ : 整数集：{...-2, -1, 0, 1, 2...}
$\mathbb{N}$ : 自然数集：{0，1， 2，3....}
$\mathbb{N}^{+}$ : 不包括零的自然数集:{1, 2,3...}
$\mathbb{R}$ : 实数集
$\in$ : 集合内元素符号.比如：$\in$A 表示x是集合A中的一个元素
$\notin$ : 与上面相反，不是集合内的元素
$\varnothing$ : 空集或者null集
A $\cup$ B: A， B集合的并集
A $\cap$ B: A， B集合的交集
A $\subseteq$ : A是B的子集
A $\bigtriangleup$ B: 两个集合的对称差：只属于其中一个集合，而不属于另一个集合的元素组成的集合。例如：集合{1，2，3} 和集合{3，4}的对称差是{1, 2, 4}。
$\left | A \right |$ : 集合A的基数(元素的个数)
$\left(a，b \right)$ : 从a到b的开区间，不包括a， b.
$\left [ a, b \right ]$ : 从a到b的闭区间，包括a,b.

序列

$\sum _{i=1}^{n}x_{i}$ : 下标变量 $x_{i}$ 的和，等于 $x_{1} + x_{2} + ... + x_{n}$
$\prod_{i=1}^{n}x_{i}$ : 下标变量 $x_{i}$ 的积，等于 $x_{1} * x_{2} * ... * x_{n}$

函数

$f:A \rightarrow B$ : 表示函数f，定义域A和值域B。
$\left(g \circ f \right)\left(x \right)$ : 两个函数g和f和组合形式： $g[f(x)]$
$f^{-1}(x)$ : 函数f的逆，如果 $f^{-1}$ 表示y，那么 $f(y)=x$ 。
$|x|$ : x的绝对值，注意与集合的区别
$log_{b}, log$ : 底数为b的对数和自然对数(底数为e)
$n!$ : n的阶乘
$\binom{k}{n}$ : 二项式系数(n选择k): $= \frac{n!}{k!(n-k)!} (0\leq k\leq n)$
$arg max f(x)$ : 使f(x)尽可能的大的x值

线性代数

$x$ : 标量，小写的斜体 $\mathbf{x}$ : 列向量(小写,粗体, n * 1的矩阵)
$\mathbf{a} \cdot \mathbf{b}$ : 两个向量的点积。如果a和b都是n * 1的矩阵，也写作 $\mathbf{a}^{\boldsymbol{\mathbf{T}}} \mathbf{b}$
$=\sum _{i=1}^{n}a_{i}b_{i}$
$\mathbf{X}$ : m * n的矩阵，大写粗体
$\mathbb{R}^{n}$ : 坐标空间，有n个长度的列向量表示。
$\mathbf{x} = \begin{bmatrix}x_{1}\\ x_{2}\\ ...\\ x_{n}\end{bmatrix}$
$\mathbf{x}^T$ : n*1向量的转置。
$\mathbf{x}^{T} =\begin{bmatrix} x_{1}& x_{2}& ...& x_{n}\end{bmatrix} = \begin{bmatrix}x_{1}\\ x_{2}\\ ...\\ x_{n}\end{bmatrix}^{T}$
$\left \| \mathbf{x} \right \|_{p}$ : Lp norm，p-norm向量。
$\left \| \mathbf{x} \right \|_{p} = (|x_{1}^{p}| + |x_{2}^{p}| + ... + |x_{n}^{p}|)^{1/p}$
$\left \| \mathbf{x} \right \|_{\infty }$ : 最大norm，向量绝对值的最大值. $=max|x_{i}|$ 。
$\left \| \mathbf{x} \right \|_{2}$ : 向量norm， l2norm。 $=||\mathbf{x}||_{2}$

$A_{i,:}$ : 矩阵的第i行
$A_{:,j}$ : 矩阵的第j列
$A^{T}$ : 矩阵的转置矩阵。 $A_{i, j} \rightarrow A_{T}^{j, i}$
$I_n$ : n*n的单位矩阵。
$I_3 = \begin{bmatrix}1 &0 &0 \\ 0& 1 & 0\\ 0&0 &1 \end{bmatrix}$
$A^{-1}$ : A矩阵的逆矩阵, $A^{-1}A = AA^{-1} = I$
tr $A$ : 矩阵的迹。主对角的元素和(左上到右下)
det $A$ : 矩阵A的行列式
diag $(a_1, a_2, ..., a_n)$ ：对角矩阵，矩阵的对角线为a1, a2, a3..，其他元素为0的矩阵。
$A\odot B$ : Hadamard乘积，矩阵对应元素的乘积

微积分

$\underset{x\to a}{\lim{}}f(x)$ : 当x趋于a时f (x)的极限
$\underset{x\to a-}{\lim{}}f(x)$ : 当x从左边趋于a时f (x)的极限
$\underset{x\to a+}{\lim{}}f(x)$ : 当x从右边趋于a时f (x)的极限

$\frac{\mathrm{d} f}{\mathrm{d} x}$ : f函数的导数
$\frac{\mathrm{d^n} f}{\mathrm{d} x^n}$ : f函数的n阶导数
$\frac{\partial f}{\partial x}$ : 函数f(x, y..)对标量x的偏导数。

$\triangledown f$ : 函数 $f: \mathbb{R}^n \to \mathbb{R}$ 的梯度，分别是对每个变量的偏导数。
$\triangledown f(x_1, x_2, ..., x_n) = \begin{bmatrix}\frac{\partial f}{\partial x_1}\\ \frac{\partial f}{\partial x_2}\\ ... \\\frac{\partial f}{\partial x_4}\end{bmatrix}$
$\triangle f$ : 函数f 的laplacian的算子
$\triangle f = \sum _{i=1}^{n}\frac{\partial^2 f}{\partial x^2}$

$\int f(x)dx$ : 函数f(F的导数)的不定积分。
$\int_{a}^{b}f(x)dx$

概率与统计

$P(A\cap B)$ : 事件A和B共同发生的概率
$P(A\cup B)$ : 事件A或者B发生的概率
$P(A|B)$ : 给定B条件，A发生的概率
$E(x),\mu_X$ : 随机变量X的期望值(平均值)，对于离散变量X， $E(X)=\sum _{i=1}^{\infty}p_ix_i$ 。表示xi发生的概率pi
$\bar{X}$ : 样本数值数据的平均值
$var(X), \sigma_x^2$ : 数值数据的方差。
$var(X)=E[(X-\mu_X)^2] = E(X^2) - E(X)^2$
$s_X^2$ : 样本数值数据的方差：
$s_X^2 = \frac{1}{n}\sum _{i=1}^{n}(X_i- \bar{X})^2$
$std(X), \sigma_x$ : 随机变量的标准差，方差的平方根
$s_X$ : 样本标准差，样本 $s_X^2$ 方差的平方根

$cov(X, Y)$ : 两个随机变量X和Y的协方差 $cov(X,Y) = E[(X-E(X))(Y-E(Y))] = E(XY)-E(X)E(Y)$
$s_{XY}$ ：数值数据的样本协方差
$s_{XY} = \frac{1}{n}\sum _{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})$
$corr(X, Y)$ : 两个随机变量X和Y的相关系数。
$=\frac{cov(X, Y)}{\sigma_x \sigma_Y}$ .
$H(X)$ : 随机变量X的熵。
离散： $H(X)=-\sum _xP(X=x)\log_bP(X=x)$
连续： $H(x)=-\int_{-\infty}^{\infty}f(x)\log_bf(x)dx$

PMF: 离散随机变量的概率质量函数， $f(x)=P(X=x)$
CDF: 连续随机变量的累积分布函数, $F(x)=P(X\leq x)$
PDF: 连续随机变量的概率密度函数: $P(X\in [a,b]) = \int_{a}^{b}f(x)dx$

X ~ D: 随机变量X的分布D。
$\hat{\theta}$ : 参数的估计量(estimator)。
$N(x, \mu, \sigma^2)$ : 随变量x的正态(高斯)分布，均值为 $\mu$ ，方差为 $\sigma^2$ 。常用的有 $N(x, 0, 1)$ .

数字

小小于
$e$ : 欧拉数，数学常数近似于2.71828。
$\pi$ : 'pi', 数值场数，近似于3.1415926.
$\infty$ : 无穷大符号
$1.234*10^5$ : 科学计数法，表示123,400 或者 1.234E05
$\ll$ : 小小于

近似

。 $\approx$ : 大致相等。 $e\approx 2.71828$ .
$f(x)\sim g(x)$ : 表示两个函数的比值接近1. 如果x很小， $\lim_{x\to 0}\frac{f(x)}{g(x)}=1$ ; 如果x很大， $\lim_{x\to \infty}\frac{f(x)}{g(x)}=1$

$f(x) \propto g(x)$ : 两个函数是成比例的
$T\in O(n^2)$ : 大O计数法：表示有 $n^2$ 种算法；或者算法的复杂度为 $n^2$ 。

逻辑

。 $\Rightarrow$ : implication 操作。比如 $A\Rightarrow B$ 表示"if A implies B", “if A then B”, "B only if A"
$\Leftrightarrow$ : 相等操作符。 "A if and only if B" 或者 "if A then B and if B then A"

$\wedge$ : 逻辑连接 and。
$\vee$ : or。
$\forall$ : 全称量词，for all。比如 $\forall x \in \mathbb{R}, x > 1$ :对于所有的x属于R，都有x>1.
$\exists$ : 存在量词，exists。比如 $\forall x \in \mathbb{A}, f(x)$ :A集合中存在x, 是的f(x)为true。