1.引言

语言识别器(language recognizer)：一种接受有效字符串的设备。
例如有穷自动机就是一种形式化的语言识别器。

语言生成器(language generator)：一种生成有效字符串的设备。
正则表达式就可以看作一种语言生成器。

考虑正则表达式 $a(a^* \cup b^*)b$ ，可以解释为如下语言描述的过程：

首先输出一个a，然后输出若干个a或者输出若干个b，最后输出一个b

可以注意到此语言由一个前导a，中间部分 $(a^* \cup b^*)$ ，尾巴b三部分组成。

于是令新的符号 $S$ ，解释为“语言中的一个字符串”，而 $M$ 是一个代表“中间部分”的符号。于是可以写作

S \rightarrow aMb

这样的表达式称为一个规则。我们可以继续添加规则来描述 $M$ ：

M \rightarrow A \; 和 \; M \rightarrow B

这里的 $A$ 和 $B$ 分别是表示“包含若干个a的字符串”和“包含若干个b的字符串”的新符号。进而，“包含若干个a的字符串”可以是空串，于是

A \rightarrow e

也可以是一个前导a和若干a的字符串组成

A \rightarrow aA

对于 $B$ 同理。

于是描述正则表达式的语言也可以用另一种方式来定义：

从由一个符号 $S$ 组成的字符串开始。
在当前字符串中找一个出现在上面的一条规则 $\rightarrow$ 左侧的符号，将它替换为 $\rightarrow$ 右侧的字符串。
重复此过程直到无法找到这样的符号停止。

上下文无关文法就是像上述定义进行运算的语言生成器。

2.上下文无关文法的定义

在上下文无关文法中，出现在 $\rightarrow$ 右侧的符号称为终结符，当生成了一个仅由终结符组成的字符串意味着过程的结束。

定义3.1.1 上下文无关文法 $G$ 是一个四元组 $(V,\Sigma,R,S)$
$V$ 是一个字母表
$\Sigma$ 是终结符集合，是 $V$ 的子集
$R$ 是规则集合，是 $(V-\Sigma) \times V^*$ 的有穷子集
$S \in V - \Sigma$ 是起始符

$V-\Sigma$ 的成员称为非终结符。
当 $(A,u) \in R$ 时记作 $A \rightarrow_G u$ 。
对任意字符串 $u,v \in V^*$ ，记 $u \Rightarrow_G v$ 当且仅当存在字符串 $x,y \in V^*$ 和 $A \in V-\Sigma$ 使得 $u = xAy,v=xv'y$ 和 $A \rightarrow_G v'$ 。
关系 $\Rightarrow^*_G$ 是 $\Rightarrow_G$ 的自反传递闭包。
于是 $G$ 生成的语言为 $\{w \in \Sigma^*:S \Rightarrow^*_G w\}$ 。
如果 $L = L(G)$ ，且 $G$ 是一个上下文无关文法，则称 $L$ 是一个上下文无关语言。

3.例子

例3.1.1 考虑上下文无关文法 $G = (V,\Sigma,R,S)$ ，其中 $V = \{S,a,b\},\Sigma = \{a,b\}$ ，而且 $R$ 包含规则 $S \rightarrow aSb$ 和 $S \rightarrow e$ ，于是可以有如下推导

S \Rightarrow aSb \Rightarrow aaSbb \Rightarrow aabb

进一步地，可以看出 $L(G) = \{ a^nb^n:n \ge 0 \}$ ，因此，某些上下文无关语言不是正则的。
然而，所有的正则语言是上下文无关的(后续可以证明)。

例3.1.2 设计一个表示部分英文的文法 $G = (W,\Sigma,R,S)$ ，

\begin{aligned} W = \{ &S,A,N,V,P \} \cup \Sigma \\ \Sigma = \{ &Jim,big,green,cheese,ate \} \\ R = \{ &P \rightarrow N,\\ &P \rightarrow AP,\\ &S \rightarrow PVP,\\ &A \rightarrow big,\\ &A \rightarrow green,\\ &N \rightarrow cheese,\\ &N \rightarrow Jim,\\ &V \rightarrow ate\} \end{aligned}

其中 $S$ 表示句子， $A$ 表示形容词， $N$ 代表名词， $V$ 表示动词， $P$ 表示短语。
下面是一些 $L(G)$ 中的字符串例子

Jim ate cheese
big Jim ate green cheese
big cheese ate Jim

然而下面的一些奇怪的句子也属于 $L(G)$

big cheese ate green green big green big cheese
green Jim ate green big Jim

上下文无关文法(Context-Free Grammars)

1.引言

2.上下文无关文法的定义

3.例子