前言

吴恩达的视频里没提到概率生成模型，在李宏毅的作业2看到了，感觉挺有必要理解的，可以很自然而然地引出逻辑回归的模型。

一、问题描述

已知m组数据 $x^{(1)}, x^{(2)}, ..., x^{(m)}$ ，每组数据表示n个特征,可写为一个n维的向量
即： $(x^{(i)})^T = ( x^{(i)}_1, ..., x^{(i)}_n)$
且每组数据的真实值 $y^{(i)}$ 只能为0或1

给定一个数据 $x$ ，预测 $x$ 对应的 $y$ 值。

二、解决方案

1. 贝叶斯公式求概率表达式

由题可知，我们根据真实值将 $m$ 组数据分为两类 $C_0$ 和 $C_1$ ，其中 $C_0$ 代表真实值为 $0$ 的数据的集合，一共有 $m_0$ 组， $C_1$ 代表真实值为 $1$ 的数据的集合，一共有 $m_1$ 组

那么给定数据 $x$ ，由贝叶斯公式， $x$ 出现在 $C_0$ 的概率为

$P(C_0 | x) = \frac{P(x | C_0) P(C_0)} { P(x | C_0) P(C_0) + P(x | C_1) P(C_1) }$

$P(C_0 | x) = \frac{1} { 1 + \frac{P(x | C_1) P(C_1)}{P(x | C_0) P(C_0)} }$

其中， $P(x | C_0)$ 代表给定集合 $C_0$ ，出现数据为 $x$ 的概率，即

$P(x | C_0) = f_{\mu^0, \Sigma^0}(x)$

其中 $\mu^0$ 和 $\Sigma^0$ 为 $C_0$ 的均值和协方差矩阵，由 $C_0$ 确定。

同理， $P(x | C_1) = f_{\mu^1, \Sigma^1}(x)$

而 $P(C_0)$ 代表随机取一组数据在 $C_0$ 的概率，即 $P(C_0) = \frac{m_0}{m_0 + m_1}$

同理， $P(C_1) = \frac{m_1}{m_0 + m_1}$

2. 由数据集求概率密度函数

当数据足够大时，由中心极限定理， $C_0$ 服从正态分布

$f_{\mu^0, \Sigma^0}(x) = \frac{1}{ (2\pi)^{\frac{n}{2}} |\Sigma^0|^{ \frac{1}{2}}} exp(-\frac{1}{2} (x - \mu^0)^T (\Sigma^0)^{-1} (x - \mu^0))$

由已有数据求 $\mu^0$ 和 $\Sigma^0$ 的最大似然估计为

$\mu^0 = \frac{1}{m_0} \sum_{i: y^{(i)} = 0} x^{(i)}$

$\Sigma^0 = \frac{1}{m_0} \sum_{i: y^{(i)} = 0} (x^{(i)} - \mu^0) (x^{(i)} - \mu^0)^T$

同理，由 $C_1$ 确定的概率分布函数、均值、协方差矩阵为

$f_{\mu^1, \Sigma^1}(x) = \frac{1}{ (2\pi)^{\frac{n}{2}} |\Sigma^1|^{ \frac{1}{2}}} exp(-\frac{1}{2} (x - \mu^1)^T (\Sigma^1)^{-1} (x - \mu^1))$

$\mu^1 = \frac{1}{m_1} \sum_{i: y^{(i)} = 1} x^{(i)}$

$\Sigma^1 = \frac{1}{m_1} \sum_{i: y^{(i)} = 1} (x^{(i)} - \mu^1) (x^{(i)} - \mu^1)^T$

3. 公式整理

对1中表达式做变形，令

$\frac{P(x | C_1) P(C_1)}{P(x | C_0) P(C_0)} = e^{-z}$

得 $P(C_0 | x) = \frac{1} { 1 + e^{-z} } = g(z)$

$z = -\ln {\frac{P(x | C_1) P(C_1)}{P(x | C_0) P(C_0)} } = \ln {\frac{P(x | C_0) }{ P(x | C_1)} } + \ln { \frac{ P(C_0) }{ P(C_1) } }$

将2中概率分布函数代入到表达式中，得

$z = \ln{\frac{ |\Sigma|^1}{ | \Sigma|^0 } } - \frac{1}{2} (x - \mu^0)^T (\Sigma^0)^{-1} (x - \mu^0) + \frac{1}{2} (x - \mu^1)^T (\Sigma^1)^{-1} (x - \mu^1)) + \ln{ \frac{m_0}{m_1}}$

若将 $\Sigma^0$ 和 $\Sigma^1$ 等同为一个值 $\Sigma$ （未考究），可继续化简得：

$z = (\mu^0 - \mu^1)^T \Sigma^{-1} x - \frac{1}{2} (\mu^0)^T \Sigma^{-1} \mu^0 + \frac{1}{2} (\mu^1)^T \Sigma^{-1} \mu^1 + \ln{ \frac{m_0}{m_1}}$

令 $z = \omega x + b$ ，则有

$\omega = (\mu^0 - \mu^1)^T \Sigma^{-1}$

$b = - \frac{1}{2} (\mu^0)^T \Sigma^{-1} \mu^0 + \frac{1}{2} (\mu^1)^T \Sigma^{-1} \mu^1 + \ln{ \frac{m_0}{m_1}}$

三、总结

既然预测 $x$ 在一个分类中的概率 $P(C_0 | x)$ ，能被关于 $x$ 与某一向量的线性组合的函数，即 $\omega x+ b$ ， $g(\omega x + b) = \frac{1}{1+ e^{\omega x+ b}}$ ，我们不妨假设向量

$\theta^T x = \omega x + b$

这就很好的解释了为什么要引入 $g(\theta^T x)$ 作为逻辑回归的假设。

一文讲清楚线性回归(Linear Regression)、逻辑回归（Logistic Regression） | Andrew的个人博客 (andreww1219.github.io)

机器学习笔记——概率生成模型

前言