1. linear-chain CRF

在序列预测任务中，用邻近（上下文）样本来辅助学习当前样本。

以Part-of-Speech Tagging任务为例：任务示例：输入Bob drank coffee at Starbucks，标记为Bob (NOUN) drank (VERB) coffee (NOUN) at (PREPOSITION) Starbucks (NOUN)

本节限制特征仅取决于当前和前一个标签，而非句中任一标签：

特征函数feature function $f_i$ （需要一堆）：

输入：
- 句子 $s$
- 词语在句中的位置 $i$
- 当前词的标签 $l_i$
- 前一个词的标签 $l_{i-1}$
输出：实数（如0/1）

给每个feature function $f_j$ 分配一个权重 $\lambda_j$ 给出一个句子 $s$ ，对labeling的打分方式是对所有单词的所有feature function求和： $score(l | s) = \sum_{j = 1}^m \sum_{i = 1}^n \lambda_j f_j(s, i, l_i, l_{i-1})$ 将所有labeling的打分转换为概率（通过exponentiating and normalizing，即softmax）： $p(l | s) = \frac{exp[score(l|s)]}{\sum_{l’} exp[score(l’|s)]} = \frac{exp[\sum_{j = 1}^m \sum_{i = 1}^n \lambda_j f_j(s, i, l_i, l_{i-1})]}{\sum_{l’} exp[\sum_{j = 1}^m \sum_{i = 1}^n \lambda_j f_j(s, i, l’_i, l’_{i-1})]}$

Example Feature Functions：在这里插入图片描述

CRF概率长得像逻辑回归→CRF就是逻辑回归的序列版：whereas logistic regression is a log-linear model for classification, CRFs are a log-linear model for sequential labels.

CRF和HMM：在这里插入图片描述

算出CRF模型后，应用在新的句子上：原始方法——算出所有 $p(l | s)$ 的值：太慢了 (polynomial-time) dynamic programming algorithm（由于linear-chain CRFs满足 optimal substructure 特性）（类似HMM的维特比算法）

2. CRF目标函数

在第一节中我们得到了： $p(l | s)= \frac{exp[\sum_{j = 1}^m \sum_{i = 1}^n \lambda_j f_j(s, i, l_i, l_{i-1})]}{\sum_{l’} exp[\sum_{j = 1}^m \sum_{i = 1}^n \lambda_j f_j(s, i, l’_i, l’_{i-1})]}$

在这里插入图片描述

将 $\sum_{i = 1}^nf_j(s, i, l’_i, l’_{i-1})]$ 记为 $f_j(x,y)$ （s，l）

CRF模型的定义式： $P(y|x)=\frac{1}{Z(x)}\exp\Big[\sum_j\lambda_j\big(f_j(x,i)\big)\Big]$ （其中 $Z(x)=\sum_y\Big[\sum_j\lambda_j\big(f_j(x,i)\big)\Big]$ ，可以看作所有可能的隐状态序列的score值之和）

我们的最终目标是找到能使得score值最大（ $P(y|x)$ 最大）的隐状态序列。在定义好feature functions后，我们需要学习 $\lambda$

用梯度学习优化feature function的权重：

有一组句子-POS标签，随机初始化CRF权重
梯度下降
1. 对每个feature function $f_i$ ，计算样本的 $\log p$ 关于 $\lambda_i$ 的梯度： $\frac{\partial}{\partial w_j} \log p(l | s) = \sum_{j = 1}^m f_i(s, j, l_j, l_{j-1}) - \sum_{l’} p(l’ | s) \sum_{j = 1}^m f_i(s, j, l’_j, l’_{j-1})$
2. 上式第一项是 $f_i$ 在真实标签下的贡献，第二项是在当前模型下的。（我们希望模型学到的VS模型当前状态）（其实我有点没看懂这啥意思）
3. $\lambda_i = \lambda_i + \alpha [\sum_{j = 1}^m f_i(s, j, l_j, l_{j-1}) - \sum_{l’} p(l’ | s) \sum_{j = 1}^m f_i(s, j, l’_j, l’_{j-1})]$ （ $\alpha$ 是学习率）

条件随机场CRF（持续更新ing...）

1. linear-chain CRF

2. CRF目标函数

本文撰写过程中使用到的其他参考资料