Logisitc 回归模型及其数学性质学习札记本文正在参加人工智能创作者扶持计划 0.动机感觉最近是一段拨乱反正

本文正在参加人工智能创作者扶持计划

0.动机

感觉最近是一段拨乱反正的时间段 : 想要更深入理论更好地了解之前很多看论文时没有细看的数学推导和数学证明 (感觉想要真正做出好的工作的前提之一是对于数学性质的扎实理解)，然后就是补各种知识。为了保证自己能够在比较快的时间内补完相关知识，我决定一边看一边理解和记录，以此倒逼自己的学习进度。这篇札记主要是对于Logistic回归模型的数学性质的理解和记录。

1. Logistic 分布

定义 1 设 $X$ 是连续随机变量， $X$ 服从 Logistic 分布是指 $X$ 具有下列分布函数和密度函数 :

\begin{aligned} & F(x)=P(X \leqslant x)=\frac{1}{1+\mathrm{e}^{-(x-\mu) / \gamma}} \\ & f(x)=F^{\prime}(x)=\frac{\mathrm{e}^{-(x-\mu) / \gamma}}{\gamma\left(1+\mathrm{e}^{-(x-\mu) / \gamma}\right)^2} \end{aligned}

其中， $\mu$ 为位置参数， $\gamma$ 为形状参数。下对其进行数学性质的推导。

\begin{aligned} \mathbb{E}[x]=&\int_{-\infty}^{\infty}xf(x) \mathrm{d} x =\int_{-\infty}^{\infty} x \frac{\mathrm{e}^{-(x-\mu) / \gamma}}{\gamma\left(1+\mathrm{e}^{-(x-\mu) / \gamma}\right)^2} \mathrm{d} x \\ =&\int_{-\infty}^{\infty} \frac{x \mathrm{e}^{-t}}{\left(1+\mathrm{e}^{-t}\right)^2} \mathrm{d} t\quad \left(\text{let } \frac{x-\mu}{\gamma}=t\right) \\ =&\int_{-\infty}^{\infty}\frac{(\mu+t\gamma) \mathrm{e}^{-t}}{\left(1+\mathrm{e}^{-t}\right)^2} \mathrm{d} t=\mu\int_{-\infty}^{\infty}\frac{e^{-t}}{\left(1+\mathrm{e}^{-t}\right)^2}\mathrm{d} t\\ &\quad\left(\frac{t\gamma e^{-t}}{\left(1+\mathrm{e}^{-t}\right)^2}+\frac{-t\gamma e^{t}}{\left(1+\mathrm{e}^{t}\right)^2}=0\right)\\ =&\left.-\frac{\mu}{e^t+1}\right|_{t=-\infty}^{\infty}=\mu \end{aligned}

\begin{aligned} \mathbb{D}[x]=&\mathbb{E}\left[\left(x-\mathbb{E}[x]\right)^2\right]=\mathbb{E}\left[x^2-2\mu x+\mu^2\right]\\ =&\mathbb{E}[x^2]-\mu^2=\int_{-\infty}^{\infty} x^2 \frac{\mathrm{e}^{-(x-\mu) / \gamma}}{\gamma\left(1+\mathrm{e}^{-(x-\mu) / \gamma}\right)^2} \mathrm{d} x-\mu^2\\ =&\int_{-\infty}^{\infty} \frac{x^2 \mathrm{e}^{-t}}{\left(1+\mathrm{e}^{-t}\right)^2} \mathrm{d} t-\mu^2\quad \left(\text{let } \frac{x-\mu}{\gamma}=t\right)\\ =&\int_{-\infty}^{\infty}\frac{(\mu+t\gamma)^2 \mathrm{e}^{-t}}{\left(1+\mathrm{e}^{-t}\right)^2} \mathrm{d} t-\mu^2\\ =&\mu^2\int_{-\infty}^{\infty}\frac{\mathrm{e}^{-t}}{\left(1+\mathrm{e}^{-t}\right)^2} \mathrm{d} t+\gamma^2\int_{-\infty}^{\infty}\frac{t^2 \mathrm{e}^{-t}}{\left(1+\mathrm{e}^{-t}\right)^2} \mathrm{d} t-\mu^2\\ &\quad\left(\frac{t\gamma e^{-t}}{\left(1+\mathrm{e}^{-t}\right)^2}+\frac{-t\gamma e^{t}}{\left(1+\mathrm{e}^{t}\right)^2}=0\right)\\ =&\gamma^2\int_{-\infty}^{\infty}\frac{t^2 \mathrm{e}^{-t}}{\left(1+\mathrm{e}^{-t}\right)^2} \mathrm{d} t=\frac{(\pi\gamma)^2}{3} \end{aligned}

$\mu$ 确定函数的位置， $\gamma$ 确定函数的图像性质，与上述定义一致。

$f(x)$ 和 $F(x)$ 的图像性质如上图所示。 $f(x)$ 关于 $\mu$ 对称， $F(x)$ 关于 $(\mu,\frac{1}{2})$ 中心对称。

2. 二项 Logistic 回归模型

二项 Logistic 回归模型 (binomial logistic regression model) 是一种分类模型，由条件概率分布 $P(Y\mid X)$ 表示，形式为参数化的 Logistic 分布。这里，随机变量 $X$ 取值为实数，随机变量 $Y$ 取值为 $1$ 或 $0$ 。我们通过监督学习的方法来估计模型参数。

定义 2 (Logistic 回归模型) 二项 Logistic 回归模型是如下的条件概率分布 :

\begin{aligned} & P(Y=1 \mid x)=\frac{\exp (w \cdot x+b)}{1+\exp (w \cdot x+b)} \\ & P(Y=0 \mid x)=\frac{1}{1+\exp (w \cdot x+b)} \end{aligned}

这里， $x\in\mathbb{R}^n$ 是输入， $Y\in\{0,1\}$ 是输出， $w\in\mathbb{R}^n$ 和 $b\in\mathbb{R}$ 是参数， $w$ 称为权值向量， $b$ 称为偏置， $w \cdot x$ 为 $w$ 和 $x$ 的内积。

有时为了方便，将权值向量和输入向量加以扩充，仍记作 $w$ ， $x$ ， $w=(w^{(1)},w^{(2)},\cdots,w^{(n)},b)^T$ ， $x=(x^{(1)},x^{(2)},\cdots,x^{(n)},1)^T$ 。这时，Logistic 回归模型如下 :

\begin{aligned} & P(Y=1 \mid x)=\frac{\exp (w \cdot x)}{1+\exp (w \cdot x)} \\ & P(Y=0 \mid x)=\frac{1}{1+\exp (w \cdot x)} \end{aligned}

现在考查 Logistic 回归模型的特点。一个事件的几率 (odds) 是指该事件发生的概率与该事件不发生的概率的比值．如果事件发生的概率是 $p$ ，那么该事件的几率是 $\frac{p}{1-p}$ ，该事件的对数几率 (log odds) 或 logit 函数是

\text{logit}(p)=\log \frac{p}{1-p}

对 Logistic 回归而言，结合上面的简易形式有 :

\log \frac{P(Y=1 \mid x)}{1- P(Y=1 \mid x)}=w \cdot x

这就是说，在 Logistic 回归模型中，输出 $Y=1$ 的对数几率是输入 $x$ 的线性函数。或者说，输出 $Y=1$ 的对数几率是由输入 $x$ 的线性函数表示的模型，即 Logistic 模型。

3. 多项 Logistic 回归

上面介绍的 Logistic 回归模型是二项分类模型，用于二类分类。可以将其推广为多项 Logistic 回归模型 (multi-nominal logistic regression model)，用于多类分类。假设离散型随机变量 $Y$ 的取值集合是 $\{1,2,\cdots,K\}$ ，那么多项 Logistic 回归模型是

\begin{aligned} & P(Y=k \mid x)=\frac{\exp (w_k \cdot x)}{1+\sum_{k=1}^{K-1} \exp (w_k \cdot x)} & k=1,2,\cdots,K-1\\ & P(Y=K \mid x)=\frac{1}{1+\sum_{k=1}^{K-1} \exp (w_k \cdot x)} \end{aligned}

其中 $x\in\mathbb{R}^{n+1}$ ， $w_k\in\mathbb{R}^{n+1}$

参考资料 (References)

李航《统计学习方法》第六章