16 学习自动机和语言

本章介绍了学习语言的问题。
是自形式语言理论和计算机科学的早期以来探索的一个经典问题，有非常大的文献处理相关的数学问题。在本章中，我们将对这个问题进行简要的介绍，并特别关注有限自动机的学习问题，而有限自动机本身已经被成千上万的技术论文以多种形式研究过。我们将研究学习自动机的两大框架，并分别给出算法。特别地，我们描述了一种用于学习自动机的算法，其中学习者可以访问几种类型的查询，我们讨论了一种用于识别自动机族中的一个子类的算法极限。

16.1 介绍

语言学习是语言学和计算机科学中最早讨论的问题之一。它是由人类学习自然语言的非凡能力推动的。人类在很小的时候就能说出结构良好的新句子，尽管他们接触的句子数量有限。而且，即使在很小的时候，他们就能对新句子的语法性做出准确的判断。
在计算机科学中，学习语言的问题与学习生成语言的计算设备的表示方式直接相关。或者学习上下文无关的语言或上下文无关的语法就相当于学习下推式自动机。
有几个原因专门研究有限自主学习的问题。自动机在各种不同的领域提供自然建模表示，包括系统、网络、图像处理、文本和语音

图16.1
( $\mathcal a$ ) A 有限自动机的图形表示。( $\mathcal b$ )等效(最小)确定性自动机。

处理，逻辑和许多其他的。对于更复杂的设备，自动机也可以作为简单或有效的近似。例如，在自然语言处理中，它们可以用来近似上下文无关的语言。在可能的情况下，学习自动机通常是有效的，但正如我们将看到的，这个问题在许多自然情况下是困难的。因此，学习更复杂的设备或语言就更难了，
我们考虑了两种一般的学习框架:有效生成学习模型和极限识别模型。对于每一个模型，我们简要讨论了学习自动机的问题，并描述了一种算法。
本文首先简要回顾了自动机的基本定义和算法，然后讨论了自动机的有效精确学习问题和自动机的有效精确学习问题识别在极限。

16.2 有限自动机

我们将用 $\Sigma$ 表示一个有限的字母表。 $\mathcal x\in\Sigma^*$ 在该字母表上的字符串长度用 $|\mathcal x|$ 表示。空字符串用 $\epsilon$ ,因此 $|\epsilon|=0$ 。对于任意string $\mathcal x=\mathcal x_{_1}\dots\mathcal x_{_k}\in\Sigma^*$ 的长度 $\mathcal k>0$ ，我们通过 $\mathcal x[\mathcal j]=\mathcal x_{_1}\dots\mathcal x_{_j}$ 其前缀长度 $\mathcal j<\mathcal k$ 定义 $\mathcal x[0]$ 为 $\epsilon$
有限自动机是具有初态和终态的有向图。下面给出这些设备的正式定义。

定义16.1 (有限自动机)

有限自动机 $A$ 是一个5元组 $\big(\Sigma,Q,I,F,G\big)$ ，其中 $\Sigma$ 为有限字母表， $Q$ 为有限状态集， $I\in Q$ 为初始状态集， $F\in Q$ 为最终状态集，以及 $E\in Q\times\big(\Sigma\cup{\epsilon}\big)\times Q$ 为迁移集的有限集。图16.1a显示了一个有限自动机的简单示例。状态用圆圈表示。粗体圆表示初始状态，双圆表示最终状态。每个转换都是由一个箭头表示的，从原始状态到目标状态，其标签在 $\Sigma\cup{\epsilon}$ 中。

16.3 高效准确学习

从初始状态到最终状态的路径称为接受路径。如果一个自动机的所有状态都可以从初始状态访问，并允许一条通往最终状态的路径，那么这个自动机就被称为修剪。如果它的所有状态都在一个可接受的路径上字符串 $\mathcal x\in\Sigma$ *被机器人接受，一个当且仅当 $\mathcal x$ 标记接受路径。为了方便起见，我们会说，当 $\mathcal x∈\Sigma^*$ 不被A拒绝时，它会被 $A$ 拒绝。 $A$ 接受的所有字符串的集合定义了 $L(A)$ 所表示的接受的语言。有限自动机接受的一类语言与正则语言家族相同，也就是说，可以用正则表达式来描述的语言。任何有限自动机都允许一个没有电子转换的等价自动机，也就是说，没有一个用空字符串标记的转换:存在一个通用的电子移除算法，它接受一个自动机作为输入，返回一个没有电子转换的等价自动机。
一个没有电子跃迁的自动机，如果它有一个唯一的初始状态，并且没有两个共享同一个标号的跃迁留下任何给定的状态，那么它就是确定性的。
确定性有限自动机通常用缩写DFA指代，而任意自动机则用缩写NFA指代，即非确定性有限自动机。任何NFA都允许一个等价的DFA:存在一个通用的(指数时间)确定算法，它接受一个没有电子转换的NFA作为输入，并返回一个等价的DFA。因此，dfa所接受的语言类别与ffa所接受的语言类别是一致的，即常规语言。
对于任何字符串X $\in\Sigma$ *和DFA A，我们用A(x)表示从它唯一的初始状态读取时x达到A的状态。
如果DFA不允许具有更少状态数的等效确定性自动机，则称它是最小的。存在一种通用的最小化算法，以确定性自动机作为输入，返回运行在 $O(|E|\log |Q|)$ 中的最小自动机。当输入DFA是无循环的，即当它不允许有路径形成一个循环时，它可以在线性时间 $O(|E|\log |Q|)$ 中最小化。图16.1b显示了与图16.1a的NFA等效的最小DFA。

16.3 有效率的学习

在有效的精确学习框架中，问题包括从一组有限的例子中识别一个目标概念 $\varrho$ ，在概念表示的大小和例子表示的大小的上界的时间多项式。与PAC-学习框架不同，在该模型中，没有随机假设，没有假设实例是根据某种未知分布绘制的。此外，目标是确定目标概念，准确地说，没有任何近似。如果存在有效精确学习任意c∈ $\varrho$ 的算法，则称概念类C是有效精确可学习的。
我们将在有效准确学习的框架内考虑两种不同的情景:被动学习情景和主动学习情景。被动学习场景类似于前几章讨论的标准监督学习场景，但没有任何随机假设:学习算法像PAC模型一样被动地接收数据实例，并返回一个假设，但在这里，实例并不假设来自任何分布。在主动学习场景中，学习者通过使用我们将描述的各种类型的查询来主动参与训练样本的选择。在这两种情况下，我们将更具体地关注学习自动机的问题。

16.3.1 被动学习

在这种情况下学习有限自动机的问题被称为最小一致DFA学习问题。它可以表示为:学习者接收到有限样本S=(( $x_1$ , $y_1$ )， ..， ( $x_m$ , $y_m$ ));对于任意 $x_i\in\Sigma^*$ 和 $y_i\in$ {-1,+1}，如果 $y_i$ =+1，则;是已接受的字符串，否则将被拒绝。
这个问题包括使用这个样本学习与S一致的最小DFA A，即状态数最小的自动机，它接受标号为+1的S字符串，拒绝标号为-1的S字符串。请注意，寻找与S一致的最小DFA可视为遵循奥卡姆剃刀原理。刚才描述的问题不同于das的标准最小化。
一个最小的DFA接受正标记S的字符串可能不会有最小数量的状态:一般来说，可能有状态更少的DFA接受这些字符串的超集，拒绝负标记的样本字符串。例如，在S= ((a， +1)， (b，-1))的简单情况下，接受唯一正标记字符串a或唯一负标记字符串b的最小确定性自动机有两种状态。然而，接受语言a*的确定性自动机接受a，拒绝b，并且只有一个状态。
有限自动机的被动学习是一个计算困难的问题。下面的定理给出了这个问题的几个已知的否定结果。
定理16.2
找到与一组接受或拒绝的字符串相一致的最小确定性自动机的问题是np -完备的。硬度结果即使是多项式近似也是已知的，如下定理所述，
定理16.3
如果PNP。那么，多项式时间算法不能保证找到与一组接受或拒绝的字符串相一致的DFA，这些字符串的大小小于最小一致DFA的多项式函数，即使当字母表被减少到只有两个元素时。在各种密码假设下，有限自动机的被动学习也得到了其他强有力的负面结果。
这些消极的学习结果促使我们考虑有限自动机的替代学习场景。下一节将描述一个场景，在该场景中，学习者可以使用各种类型的查询积极参与数据选择过程，从而获得更积极的结果。

16.3.2 通过查询学习

带查询的学习模式对应于(最小)教师或oracle和主动学习者的学习模式。在这个模型中，学习者可以提出以下两种类型的查询，oracle会回应这两种查询:
成员关系查询: 学习者请求实例a的目标标签 $f(x)\in$ {-1,+1}并接收该标签。
等价查询: 学习者假设请求 $\mathcal h$ ;如果 $\mathcal h$ = $\mathcal f$ ，它会收到响应yes，否则就是反例。
我们会说，当一个概念类 $\varrho$ 在这个模型中是有效地准确地学习时，它是有效地准确地学习成员和等价查询。这个模型是不现实的，因为在实践中通常没有这样的oracle。然而，它提供了一个自然的框架，正如我们将看到的那样，这将导致积极的结果。还要注意，要使这个模型具有意义，等价性必须是可计算的。对于一些概念类，例如无冲突语法，则不是这样，因为等价问题是不可确定的。事实上，等价性必须进一步有效地进行测试，否则在合理的时间内无法提供对学习者的响应。这种查询学习模型中的高效精确学习意味着PAC学习的以下变体：如果概念类 $\varrho$ 可以通过访问多项式数量的成员查询的算法进行PAC学习，我们将说它可以通过成员查询进行PAC学习。

定理16.4
设是一个概念类 $\varrho$ ，可以通过成员和等价查询有效地学习，那么 $\varrho$ 是PAC-可学习的成员查询。
Proot:让A是一个使用成员和等价查询高效准确地学习 $\varrho$ 的算法。修正 $\varrho$ > 0。我们用 $\mathcal A$ 来代替学习
对于人类oracle，在某些情况下，当查询接近类边界时，回答成员查询也可能变得非常困难。这也使得模型难以采用在实践中。
目标 $\mathcal c\in\varrho$ ，每个等价性查询通过测试当前假设的多项式数标记的例子。设 $\mathcal D为点的分布。为了模拟第t个等价查询，我们绘制m_t$ = $\frac{1}{\epsilon}$ ( $\log_ \frac{1}{\delta}$ + t $\log_ 2$ )点ii.d。如果 $h_t$ 与所有这些点都一致，则算法停止并返回ht。否则，其中一个点不属于 $h_t$ ，这提供了一个反例。
因为 $\mathcal A$ 准确地学习了c，所以它最多进行 $\mathcal T$ 次等价查询。其中 $\mathcal T$ 是一个多项式，是目标概念的表示大小和一个例子的表示大小的上界。因此，如果没有等价查询，则仿真会积极响应。算法将在 $\mathcal T$ 等价查询后终止，并返回正确的概念c。否则，算法将在第一个等价查询得到仿真的积极响应时停止。只有当停止算法的等价查询没有得到正确的响应时，它返回的假设不是 $\epsilon$ 近似。由于对于任何固定tE [ $\mathcal T$ ], $\mathbb{P}$ [ $\mathcal R$ ( $h_t$ ) > $\epsilon$ ] $\leqslant$ $(1-\epsilon)e^{m_t}$ ，对于t $\in$ [ $\mathcal T$ ]，[ $\mathcal R(h_t)] >\epsilon$ 可以被限定为:

\mathbb{P}[{\exists}\mathcal t\in[\mathcal R]:[\mathcal R(h_t)>\epsilon]\leqslant \sum_{t=1}^{\mathcal T}\mathbb{P}[\mathcal R(h_t)>\epsilon]

\leqslant \sum_{t=1}^{\mathcal T}(1-\epsilon)e^{m_t}\leqslant\sum_{t=1}^{\mathcal T}-e^{m_t\epsilon}\leqslant\sum_{t=1}^{\mathcal T}\frac{\delta}{2^{n}}\leqslant\sum_{t=1}^{+\infty}\frac{\delta}{2^{n}}=\delta

因此，在概率至少为 $1-\delta$ 的情况下，算法返回的假设是一个 $\epsilon$ 近似值。最后，绘制的最大点数为 $\sum_{t=1}^{\mathcal T}m_t=\frac{1}{\epsilon}(\mathcal T$ ( $\log_ \frac{1}\delta+\frac{\mathcal T(\mathcal T+1)}{2})$ ，是在多项式in 1/ $\epsilon$ , 1/ $\delta$ ，和 $\mathcal T$ 。由于 $\mathcal A$ 的其余计算成本也假定是多项式，这证明了 $\ell$ 属于PAC-学习

16.3.3 使用查询自动机学习

在本节中，我们描述了一种具有成员资格和等价查询的DFA的有效精确学习算法。我们用 $\mathcal A$ 表示目标DFA，用 $\mathcal A$ 表示算法的当前假设DFA。用于讨论算法。在不失一般性的前提下，我们假定 $\mathcal A$ 是一个最小的DFA。
该算法使用两组字符串。 $\mathcal U和\mathcal V,\mathcal U$ 是一组访问字符串:从a的初始状态读取一个访问字符串 $\mathcal u\in\mathcal U$ 将导致状态 $\mathcal A(u)$ 。该算法确保状态 $\mathcal A(u)$ ， $\mathcal u\in\mathcal U$ 都是不同的。为此，它使用一组可区分的字符串 $\mathcal V。由于\mathcal A$ 是最小值，对于两个不同的状态 $\mathcal q和\mathcal A中的\mathcal q$ '，必须存在至少一条弦， $\mathcal q从而不是从\mathcal q$ '导致最终状态。反之亦然。这个字符串帮助区分 $\mathcal q和\mathcal q$ '。字符串V的集合如下

图16.2 $(\mathcal a)$ 分类树 $\mathcal T,\mathcal U$ ={ ${\epsilon,\mathcal u,\mathcal ba}$ }和 $\mathcal V$ = { ${\mathcal e,\mathcal a}$ }。
$(\mathcal b)$ 使用 $\mathcal T$ 构造的当前自动机 $\hat{A}$ 。
$(\mathcal c)$ 目标自动机 $\mathcal A$
帮助区分 $\mathcal U$ 中的任意一对访问字符串 $\sum^*$ 。
它们实际上定义了所有字符串的分区该算法的目标是在每次迭代时找到一个新的与之前所有的访问字符串不同的访问字符串 $\sum^*$ ，最终得到等于状态数4的访问字符串数量。它可以识别每个州(u)的访问字符串u。找到目的地的状态转换贴上E2离开状态u,它可以确定,使用分区由V访问字符串”,属于同一等价类ua。每个状态的最终结果可以用类似的方法确定。
这两个集合和变量都由算法通过一个类似于第9章所述的二进制决策树 $\mathcal T$ 来维护。图16.2 $(\mathcal a)$ 显示了一个示例。 $\mathcal T$ 定义由区分字符串 $\mathcal U$ 引起的所有字符串的分区。每片叶子上都有一个明显的标记 $\mathcal u\in\mathcal U$ 及其内部节点与 $\mathcal v\in\mathcal V$ .由 $\mathcal v\in\mathcal V$ 定义的决策树问题, 给定一个 $\mathcal x\in\Sigma^*$ , 是指 $\mathcal A$ 是否接受 $\mathcal xv$ ，这是通过成员资格查询确定的。如果接受， $\mathcal x$ 将分配给右子树，否则分配给左子树，并递归地应用于子树，直到到达叶子。我们用通过 $\mathcal T(\mathcal x)$ 表示到达的叶子的标签。例如，对于图16.2 $(\mathcal a)$ 的树梢和图16.2 $(\mathcal c)$ 的目标自动机 $\mathcal A$ 。 $\mathcal T(\mathcal abb)=\mathcal b,\mathcal abb不被\mathcal A（根本问题）和\mathcal abbb$ （节点问题）接受。在初始化步骤中，该算法确保根节点标记为 $\epsilon$ ，这便于检查字符串的终结性。
假设DFA A可以由 $\mathcal T$ 构造如下。我们用 $\mathcal C$ ONSTRUCTAUTOMATON()表示相应的函数。为每个叶子 $\mathcal u\in\mathcal U$ 创建一个不同的状态 $\hat{A}(\mathcal u)$ 。状态 $\hat{A}(\mathcal u)$ 的终结是根据 $\mathcal u$ 所属的根节点的子树来确定的:如果所属 $\mathcal u，则\hat{A}(\mathcal u)$ 成为最终状态
$\mathcal Q$ UERY $\mathcal L$ EARN $\mathcal A$ UTOMATA()
1 $\mathcal t\gets\mathcal M$ EMBERSHIP $\mathcal Q$ UERY $(\epsilon)$
2 $\mathcal T\gets\mathcal T_{0}$
3 $\hat{A}\gets\mathcal A_{0}$
4 $\mathcal while$ ( $\mathcal E$ QUIVALENCE $\mathcal Q$ UERY $(\hat{A})\neq$ TRUE) $\mathcal do$
5 $\mathcal x\gets\mathcal C$ OUNTER $\mathcal E$ XAMPLE $()$
6 $\mathcal if(\mathcal T=\mathcal T_{0})\mathcal then$
7 $\mathcal T\gets\mathcal T_{1}\rhd(NEL\quad\ replaced\quad\ with \mathcal x)$
8 $\mathcal else\mathcal j\gets\mathcal argmin_{k}\mathcal A(\mathcal x[\mathcal k])\not\equiv_{\mathcal T}\hat{A}(\mathcal x[\mathcal k])$
9 $\mathcal SPLIT(\hat{A}(\mathcal x[\mathcal j-1]))$
10 $\hat{A}\gets\mathcal C$ ONSTRUCT $\mathcal A$ UTOMATON $(\mathcal T)$
11 $\mathcal return\quad\hat{A}$

图16.3
具有隶属度和等价查询的自动机学习算法。 $\mathcal A_{0}$ 是一个单状态自动机，其自循环全部标记为 $\mathcal a\in\sum$ 。这个状态是初始状态。它是最后随着 $\epsilon$ 的iff $\mathcal t=\mathcal TRUE$ 。 $\mathcal T_{0}$ 是一棵根节点标记为 $\epsilon$ 和两个叶子的树在右边的叶子是iff $\mathcal u=\epsilon\mathcal u$ 。一个是 $\epsilon$ ，另一个是 $\mathcal NIL$ 。右边的叶子有 $\epsilon$ 标签iff $\mathcal t=\mathcal TRUE.\mathcal T_{1}$ 是 $\mathcal T_{0}中\mathcal x$ 代替NIL得到的树。转换的终点用 $\mathcal a\in\sum$ 标记离开状态 $\hat{A}(\mathcal u)$ 是状态 $\hat{A}(\mathcal v)$ ，其中 $\mathcal v=\mathcal T(\mathcal ua)$ 。图16.2 $\mathcal b$ 显示了根据图16.2 $\mathcal a$ 的决策树构造的 $\mathcal DFA \hat{A}$ 。为了方便，对于任何 $\mathcal x\in\sum^*$ ，我们用 $\mathcal U(\hat{A}(\mathcal x))$ 表示标识的访问字符串状态 $\hat{A}(\mathcal x)$
图16.3给出了算法的伪代码。第1-3行初始化步骤构造了一个树 $\mathcal T$ ，其中一个内部节点标记为 $\epsilon$ ，一个叶串标记为 $\epsilon$ ，另一个叶串未确定，标记为 $\mathcal NIL$ 。他们还定义了一个试验性的 $\mathcal DFA \hat{A}$ ，其中有一个用字母表的所有元素标记的自循环状态。这个状态就是初始状态。只有当 $\epsilon$ 被目标 $\mathcal DFA A$ 接受时，它才会成为最终状态。目标 $\mathcal DFA A$ 是通过第1行成员关系查询确定的。
在第4-11行循环的每次迭代中，都会使用一个等价查询。如果 $\hat{A}$ 不等于 $\mathcal A$ ，则接收反例字符串 $\mathcal x$ (第5行)。如果 $\mathcal T$ 是在初始化步骤中构造的树，则标记为 $\mathcal NIL$ 的叶子被替换为 $\mathcal x$ (第6-7行)。否则，由于 $\mathcal x$ 是反例, 图16.4
拆分程序的说明 $\mathcal SPLIT(\hat{A}(\mathcal x[\mathcal j-1]))$
则表示 $\mathcal A(\mathcal x)$ 和 $\hat{A}(\mathcal x)$ 有不同的结局;因此,定义一个字符串 $\mathcal A(\mathcal x)$ 和访问字符串 $\mathcal U(\hat{A}(\mathcal x))$ 被分配到不同的等价类 $\mathcal T$ .因此,存在一个最小的 $\mathcal j$ , 以致 $\hat{A}(\mathcal x[\mathcal j])$ 和 $\mathcal A(\mathcal x[\mathcal k])$ 并不相同,也就是说,这样前缀 $\mathcal x[\mathcal j]$ 对于 $\mathcal x$ 交流和访问字符串 $\mathcal U(\hat{A}(\mathcal x[\mathcal j]))$ 分配给不同的叶子通过 $\mathcal T.\mathcal j$ 可能为0自初始化确保 $\hat{A}(\epsilon)$ 是一种初始状态,初始状态相同的结尾 $\mathcal A(\epsilon)$ 的 $\mathcal A$ .等价 $\mathcal A(\mathcal x[\mathcal j])$ 和 $\hat{A}(\mathcal x[\mathcal j])$ 是测试通过检查 $\mathcal T$ 的平等 $\mathcal T(\mathcal x[\mathcal j])$ 和 $\mathcal T(\mathcal U(\hat{A}(\mathcal x[\mathcal j])))$ 既决定使用树 $\mathcal T$ 和会员查询(第8行)。
现在，根据定义， $(\mathcal A(\mathcal x[\mathcal j-1]))$ 和 $(\hat{A}(\mathcal x[\mathcal j-1]))$ 是等价的，即 $\mathcal T$ 将 $\mathcal x[\mathcal j-1]$ 赋给以 $\mathcal U(\hat{A}(\mathcal x[\mathcal j-1]))$ 标记的叶子。但是，必须区分 $\mathcal x[\mathcal j-1]$ 和 $\mathcal U(\hat{A}(\mathcal x[\mathcal j-1]))$ ,因为 $(\hat{A}(\mathcal x[\mathcal j-1]))$ 和 $(\mathcal A(\mathcal x[\mathcal j-1]))$ 用同一标签 $\mathcal x_{\mathcal j}$ 允许转换为两个非等效态。设 $\mathcal v$ 是 $\hat{A}(\mathcal x[\mathcal j])$ 和 $\mathcal A(\mathcal x[\mathcal j])$ 的区别字符串。 $\mathcal v$ 是 $\mathcal x[\mathcal j]$ 和 $(\hat{A}(\mathcal x[\mathcal j]))$ 标记叶的最小共同祖先。为了区分 $\mathcal x[\mathcal j-1])$ 和 $\mathcal U(\hat{A}(\mathcal x[\mathcal j-1]))$ ，只需将 $\mathcal T$ 标记的 $(\mathcal T(\mathcal x[\mathcal j-1]))$ (叶片分裂，创建一个内部节点 $\mathcal x_{\mathcal j}\mathcal u$ 支配一个标记为 $\mathcal x[\mathcal j-1]$ 的叶片和另一个标记为 $(\mathcal T(\mathcal x[\mathcal j-1]))$ 的叶片(第9行)。图16.4说明了这种结构。因此，这提供了一个新的访问字符串 $\mathcal x[\mathcal j-1]$ ，通过构造，它区别于 $\mathcal U(\hat{A}(\mathcal x[\mathcal j-1]))$ 和所有其他访问字符串
因此，访问字符串的数量(或 $\mathcal A$ 的状态)在循环的每次迭代中增加一个。当它达到 $\mathcal A$ 的状态数时， $\mathcal A$ 的所有状态都是 $\mathcal A(u)$ 对于一个不同的 $\mathcal u\in\mathcal U$ , $\mathcal A$ 和 $\hat{A}$ 有相同数量的状态，实际上 $\mathcal A$ = $\hat{A}$ 。的确，设( $\mathcal A(u),\mathcal a,\mathcal A(u^{'}))$ 是 $\mathcal A$ 的一个过渡，那么根据定义，等式 $\mathcal A(\mathcal ua)$ = $\mathcal A(u^{'})$ 成立。树T根据它们在a中的区别定义了所有字符串的划分，因为在 $\mathcal A$ 中,当 $\mathcal A、\mathcal ua、和\mathcal u$ 导致相同的状态，它们被 $\mathcal T$ 分配到同一个叶子上，也就是说，叶子标记为 $\mathcal u^{'}$ 。由 $\mathcal C$ ONSTRUCT $\mathcal A$ UTOMATON $()$ 通过确定分配给 $\mathcal ua$ 的 $\mathcal T$ 中的叶子，即 $\mathcal u^{'}$ ，来找到标号为 $\mathcal A$ 的 $\mathcal A(u)$ 转换的目的地。因此，通过构造，在 $\mathcal A^{'}$ 中创建了相同的转换 $\mathcal A(\mathcal u),\mathcal a,\hat{A}(\mathcal u^{'})$ 。

图16.5
算法 $\mathcal Q$ UERY $\mathcal L$ EARN $\mathcal A$ UTOMATA()对目标自动机 $\mathcal A$ 的执行说明。每一行显示当前的决策树 $\mathcal T$ 和使用 $\mathcal T$ 构造的暂定 $\mathcal DFA \hat{A}$ 。当 $\hat{A}$ 不等于 $\mathcal A$ 时，学习者会收到第三列所示的反例。同时， $\mathcal A$ 的状态 $\mathcal A(\mathcal u)$ 是 $\mathcal A$ 接受的最终状态，即 $\mathcal T$ 将 $\mathcal u$ 分配给根节点的右子树，这是决定 $\hat{A}(\mathcal u)$ 最终状态的判据。因此，自动机 $\hat{A}$ 和 $\mathcal A$ 重合。
下面对算法的运行时间复杂度进行分析。在每次迭代中，会发现一个新的区别访问字符串与 $\mathcal A$ 的不同状态相关联，因此，最多创建 $|\mathcal A|$ 状态。对于每个反例 $\mathcal x$ ，最多执行 $|\mathcal x|$ 树操作。建造 $\hat{A}$ 需要 $\mathcal O(|\sum||\mathcal A|)$ 树操作。树操作的成本是 $\mathcal O(|\mathcal A|)$ ，因为它最多由 $|\mathcal A|$ 组成会员查询。因此，算法的总体复杂度是 $\mathcal O(|\sum||\mathcal A|^2)+\mathcal n\|\mathcal A|$ ，其中 $\mathcal n$ 是反例的最大长度。注意，此分析假设等价性和成员关系查询在常量时间内进行。
我们的分析显示了以下结果。

定理16.5 （通过查询学习 $\mathcal DFA$ ）

使用成员资格和等价查询， $\mathcal DFA$ s所有的类都可以有效地准确地学习。图16.5说明了在特定情况下算法的完全执行。在下一节中，我们将研究自动机的不同学习场景。

16.4 极限识别

在极限框架中的识别中，问题包括在收到有限的示例集后准确地识别目标概念。如果有一种算法在检查了有限数量的示例后识别该 $\mathcal L$ 类语言中的任何语言，并且该算法的假设此后保持不变，则称该类语言为可识别语言。
从计算的角度来看，这个框架可能不太现实，因为它不需要实例数量或算法效率的上限。然而，有人认为这与人类学习语言的情景相似。在这个框架中，消极的结果也适用于学习 $\mathcal DFA$ 的一般问题。

定理16.6 确定性自动机在实证的限制下是不可识别的。

然而，有限自动机的某些子类可以在极限条件下成功识别。大多数自动机推理算法都是基于状态划分范式的。它们从一个初始的 $\mathcal DFA$ 开始，通常是一个树，它接受有限的可用样本字符串集和平凡的分区：每个块被简化为树的一个状态。在每次迭代中，它们合并分区块，同时保留一些同余属性。当没有其他合并是可能的，并且最终分区定义了推断的自动机时，迭代结束。因此，同余的选择完全决定了算法，通过改变选择可以定义各种不同的算法。从接受 $\sum^{*}$ 的单状态自动机开始，可以类似地定义状态分裂范式∗. 在本节中，我们将介绍一种学习可逆自动机的算法，这是刚刚描述的一般状态划分算法范式的一个特殊实例。
让 $\mathcal A= (\sum,\mathcal Q,\mathcal I,\mathcal F,\mathcal E)$ 成为一个 $\mathcal DFA$ 和让 $\pi$ 是 $\mathcal Q$ 的一个划分. 由分区 $\pi$ 定义的 $\mathcal DFA$ 称为与 $\pi$ 的自动商。它由 $\frac{\mathcal A}{\pi}$ 且定义如下： $\frac{\mathcal A}{\pi}=(\sum,\pi,\mathcal L_{\pi},\mathcal F_{\pi},\mathcal E_{\pi})$ 和：
$\mathcal I_{\pi}={[{(\mathcal B\in\pi:\mathcal I\cap\mathcal B\neq\emptyset)}]}$
$\mathcal F_{\pi}={[{(\mathcal B\in\pi:\mathcal F\cap\mathcal B\neq\emptyset)}]}$
$\mathcal E_{\pi}=[{(\mathcal B,\mathcal a,\mathcal B^{'}):\exists(\mathcal q,\mathcal a,\mathcal q^{'})\in\mathcal E|\mathcal q\in\mathcal B,\mathcal q^{'}\in\mathcal B^{'},\mathcal B\in\pi,\mathcal B^{'}\in\pi}]$
设 $\mathcal S$ 为一组有限的字符串，设优先 $\mathcal (S)$ 表示所有字符串的前缀集。pref树自动机精确地接受一组字符串 $\mathcal S$ 一个特定的 $\mathcal DFA$ ，由 $\mathcal PT(S)=(\sum,pref\mathcal (S),{\epsilon},\mathcal S,\mathcal E_{\mathcal S}$ ）表示,其中 $\sum$ 是使用的一组字母符号，定义如下:
$\mathcal S,\mathcal E_{\mathcal S}={(\mathcal x,\mathcal a,\mathcal xa):\mathcal x\in.pref\mathcal (S),\mathcal xa\in.pref \mathcal (S)}$
图16.7显示了一组特定字符串的前缀树自动机。

16.4.1 学习可逆自动机

在本节中，我们展示了可恢复自动机或可恢复语言的子类可以在极限内识别。特别是我们表明语言可以识别出一个积极的在本节中，我们展示了可恢复自动机或可恢复语言的子类可以在极限内识别。特别是，我们表明，语言可以识别出一个积极的介绍。
语言的正表示形式是无限序列 $(\mathcal x_{n})_{n}$ 确保{ $\mathcal xn:\mathcal n\in\mathbb{N}$ }= $\mathcal L$ 。因此，特别是对于任一 $\mathcal x\in\mathcal L$ 存在 $\mathcal n\in\mathbb{N}$ 确定 $\mathcal x=\mathcal x_{n}$ 。如果存在，则算法可从正表示中识别极限 $\mathcal N\in\mathbb{N}$ 那是什么意思 $\mathcal n\geq\mathcal N$ 假设它返回为 $\mathcal L$ 。
给定一个 $\mathcal DFA\mathcal A$ ，我们将其反向 $\mathcal A^{\mathcal R}$ 定义为通过使初始状态 $\mathcal A$ 为最终状态，最终状态为初始状态，并反转每个转换的方向，从 $\mathcal A$ 派生出的自动机。反向接受的语言正是 $\mathcal A$ 接受的字符串的反向（或镜像）语言。

定义16.7 （可逆的自动机）

如果 $\mathcal A$ 和 $\mathcal A^{\mathcal R}$ 都是确定性的，则称有限自动机 $\mathcal A$ 为不可逆的。如果语言 $\mathcal L$ 是某种可逆自动机所接受的语言，则称其为不可逆语言。
这个定义的一些直接后果是可逆自动机 $\mathcal A$ 有一个唯一的终态，其逆 $\mathcal A^{\mathcal R}$ 也是可逆的。还要注意，修剪可逆自动机 $\mathcal A$ 是最小的。事实上，如果 $\mathcal A$ 中的状态 $\mathcal q$ 和 $\mathcal q^{'}$ 是等价的，那么它们允许一个从 $\mathcal q$ 和 $\mathcal q^{'}$ 到最终状态的公共字符串 $\mathcal x$ 。但是，根据 $\mathcal A$ 的反向决定论，从最终状态读取 $\mathcal x$ 的反向必须导致唯一状态，这意味着 $\mathcal q=\mathcal q^{'}$ 。
对于任何 $\mathcal u\in\sum^{*}$ 任何语言都可以 $\mathcal L\subseteq\sum^{*}$ , 让 $\mathcal Suff_{L}(\mathcal u)$ 表示 $\mathcal L$ 中所有可能后缀的集合，表示 $\mathcal u$ :
$\mathcal Suff_{L}(\mathcal u)=[{\mathcal v\in\sum^{*}:\mathcal uv\in\mathcal L}]$
$\mathcal Suff_{L}(\mathcal u)$ 通常也用 $\mathcal u^{-1}\mathcal L$ 表示.注意，如果 $\mathcal L$ 是可逆语言，则以下含义适用于任意两个字符串 $\mathcal u$ ， $\mathcal u^{'}\in\sum^{*}$ :
$\mathcal Suff_{L}(\mathcal u)\cap\mathcal Suff_{L}(\mathcal u^{'})\neq\emptyset\Longrightarrow\mathcal Suff_{L}(\mathcal u)=\mathcal Suff_{L}(\mathcal u^{'})$
事实上，设 $\mathcal A$ 是一个接受 $\mathcal L$ 的可逆自动机。设 $\mathcal q$ 是 $\mathcal A$ 在读取时从初始状态到达的状态， $\mathcal q^{'}$ 是读取 $\mathcal u$ 时到达的状态。如果 $\mathcal v\in\mathcal Suff_{L}(u)\cap\mathcal Suff_{L}(\mathcal u^{'})$ ，则可以从 $\mathcal q$ 和 $\mathcal q^{'}$ 读取 $\mathcal v$ 以达到最终状态。由于 $\mathcal A^{\mathcal R}$ 是确定性的，从最终状态读回 $\mathcal v$ 的倒数必须导致唯一状态，因此 $\mathcal q=\mathcal q^{'}$ ，即 $\mathcal Suff_{L}(\mathcal u)=\mathcal Suff_{L}(\mathcal u^{'})$ 。
让 $\mathcal A=(\sum,\mathcal Q,(\mathcal i_{0})，(\mathcal f_{0}),\mathcal E))$ 是接受可逆语言 $\mathcal L$ 的可逆自动机。我们定义一组字符串 $\mathcal S_{\mathcal L}$ 如下：
$\mathcal S_{\mathcal L}$ ={ $\mathcal d[\mathcal q]\mathcal f[\mathcal q]:\mathcal q\in\mathcal Q$ } $\cup$ { $\mathcal d[\mathcal q],\mathcal a,\mathcal f[\mathcal q^{'}]:\mathcal q,\mathcal q^{'}\in\mathcal Q,\mathcal a\in\sum$ }
其中 $\mathcal d[\mathcal q]$ 是从 $\mathcal i_{0}$ 到 $\mathcal q$ 的最小长度的字符串, $\mathcal f[\mathcal q]$ 是从 $\mathcal q$ 到 $\mathcal f_{0}$ 的最小长度的字符串。如下面的命题所示， $\mathcal S_{L}$ 描述了语言 $\mathcal L$ 的特征，即任何包含 $\mathcal S_{L}$ 的可逆语言都必须包含 $\mathcal L$ 。

提议16.8 让我们用一种可逆的语言。那么， $\mathcal L$ 是包含 $\mathcal S_{L}$ 的最小可逆语言。

证明:设 $\mathcal L^{'}$ 为包含 $\mathcal S_{L}$ 的可逆语言，设 $\mathcal x=\mathcal x1··\mathcal x_{\mathcal n}$ 为 $\mathcal L$ 接受的字符串，带 $\mathcal x_{\mathcal k}\in\mathcal k$ 的 $\sum\in[\mathcal n]$ 和 $mathcal n\geq1$ .为了方便起见，我们还将 $\mathcal x_{0}$ 定义为 $\epsilon$ 。设 $(\mathcal q_{0},\mathcal x_{1},\mathcal q_{1})···(\mathcal q_{(\mathcal n-1)},\mathcal x_{\mathcal n},\mathcal q_{\mathcal n})$ 是 $\mathcal A$ 中标记有 $\mathcal x$ 的接受路径。我们通过递归证明，对于所有 $\mathcal k$ ， $\mathcal Suff_{L^{'}}(\mathcal x_{0}···\mathcal x_{\mathcal n})=\mathcal Suff_{L^{'}}(\mathcal d[\mathcal q_{\mathcal k}]$ 对于所有 $\mathcal k\in$ { $0,···,\mathcal n$ }。由于 $\mathcal d[\mathcal q_{0}]=\mathcal d[\mathcal i_{0}]=\epsilon$ ,，这显然适用于 $\mathcal k=0$ 。现在假设某些 $\mathcal k\in$ { $0,···,\mathcal n-1$ }的 $\mathcal Suff_{L^{'}}(\mathcal k_{0}=\mathcal Suff_L0（d[qk]）$ . 这立即意味着 $\mathcal Suff_{L^{'}}(\mathcal x_{0},···,\mathcal x_{\mathcal k}\mathcal x_{\mathcal k+1})=SuffL0（d[qk]xk1）=\mathcal Suff_{L^{'}}(\mathcal d[\mathcal q_{\mathcal k+1}])$ 。根据定义， $\mathcal S_{\mathcal L}$ 同时包含 $\mathcal d[\mathcal q_{\mathcal k+1}]\mathcal f[\mathcal q_{\mathcal k+1}]$ 和 $\mathcal d[\mathcal x_{\mathcal k+1}]\mathcal f[\mathcal q_{\mathcal k+1}]$ 。由于 $\mathcal L^{'}$ 包括 $\mathcal S_{\mathcal L}$ ，因此 $\mathcal L^{'}$ 也同样适用。因此， $\mathcal f[\mathcal q_{k+1}]$ 属于 $\mathcal Suff_{L^{'}}(\mathcal d[\mathcal q_{\mathcal k+1}])\cap\mathcal Suff_{L^{'}}(\mathcal d[\mathcal q_{k}]\mathcal x_{\mathcal k+1})$ 。鉴于 $(\mathcal 16.2)$ ，这意味着 $\mathcal Suff_{L^{'}}(\mathcal d[\mathcal q_{k}]\mathcal x_{\mathcal k+1})$ = $\mathcal Suff_{L^{'}}(\mathcal d[\mathcal q_{\mathcal k+1}])$ 。因此，我们有 $\mathcal Suff_{L^{'}}(\mathcal x_{0},···,\mathcal x_{\mathcal k}\mathcal x_{\mathcal k+1})=\mathcal Suff_{L^{'}}(\mathcal d[\mathcal q_{\mathcal k+1}])$ 。这表明 $\mathcal Suff_{L^{'}}(\mathcal x_{0},···,\mathcal x_{\mathcal k})=\mathcal Suff_{L^{'}}(\mathcal d[\mathcal q_{k}])$ 适用于所有 $\mathcal k\in$ { $0,···,\mathcal n$ }，特别是对于 $\mathcal k=\mathcal n$ 。注意，由于 $\mathcal q_{n}=\mathcal f_{n}$ ，我们有 $\mathcal f[\mathcal q_{n}]=\epsilon$ ，因此 $\mathcal d[\mathcal q_{n}]=\mathcal d[\mathcal q_{n}]\mathcal f[\mathcal q_{n}]$ 在 $\mathcal S_{L}\subseteq\mathcal L^{'}$ ，这意味着 $\mathcal Suff_{L^{'}}(\mathcal d[\mathcal q_{n}])$ 被包含。因此 $\mathcal Suff_{L^{'}}(\mathcal x_{0}···\mathcal x_{\mathcal n})$ 包含 $\epsilon$ 。这相当于 $\mathcal x=\mathcal n_{0}···\mathcal x_{n}\in\mathcal L^{'}$ 。
图16.6显示了一个算法的伪代码，该算法用于从 $\mathcal m$ 个字符串 $\mathcal x_{1},···,\mathcal x_{\mathcal m}$ 的样本 $\mathcal S$ 推断可逆自动机 $\mathcal A$ 。该算法首先为 $\mathcal S$ (第1行)创建前缀树自动机 $\mathcal a$ ，然后迭代地定义 $\mathcal A$ 状态的分区 $\pi$ ,从每个状态一个块的平凡分区 $\pi_{0}$ 开始（第2行）。返回的自动机是 $\mathcal A$ 和定义的最终分区 $\pi$ 的商。
$\mathcal L$ EARN $\mathcal R$ EVERSIBLE $\mathcal A$ UMATALEA( $\mathcal S=(\mathcal x_{1},···,\mathcal x_{\mathcal m}))$
1 $\mathcal A=(\Sigma,\mathcal Q,\{\mathcal i_{0}\},\mathcal F,\mathcal E)\gets\mathcal PT(S)$
2 $\pi\gets\pi_{0}\rhd$ 琐碎的划分
3 $\mathcal LIST\gets{\{(\mathcal f,\mathcal f^{'}):\mathcal f^{'}\in\mathcal F}\}$
4 然而 $\mathcal LIST\ne\emptyset\mathcal do$
5 $\mathcal R$ EOVE( $\mathcal LIST,(\mathcal q_{1},\mathcal q_{2})$
6 $\mathcal if\quad\mathcal B(\mathcal q_{1},\pi)\ne\mathcal B(\mathcal q_{2},\pi)\quad\mathcal then$
7 $\mathcal B_{1}\gets\mathcal B(\mathcal q_{1},\pi)$
8 $\mathcal B_{2}\gets\mathcal B(\mathcal q_{2},\pi)$
9 对于所有 $\mathcal a\in\Sigma\mathcal do$
10 如果 $(\mathcal succ(\mathcal B_{1},\mathcal a)\ne\emptyset)\bigwedge(\mathcal succ(\mathcal B_{2},\mathcal a)\ne\emptyset)\mathcal then$
11 $\mathcal A$ DD $(\mathcal LIST,(\mathcal succ(\mathcal B_{1},\mathcal a),(\mathcal succ(\mathcal B_{2},\mathcal a)))$
12 如果 $(\mathcal pred(\mathcal B_{1},\mathcal a)\ne\emptyset)\bigwedge(\mathcal pred(\mathcal B_{2},\mathcal a)\ne\emptyset)\mathcal then$
13 $\mathcal A$ DD $(\mathcal LIST,(\mathcal pred(\mathcal B_{1},\mathcal a),(\mathcal pred(\mathcal B_{2},\mathcal a)))$
14 $\mathcal U$ PDATE $(\mathcal succ,\mathcal pred,\mathcal B_{1},\mathcal B_{2})$
15 $\pi\gets\mathcal M$ ERGE $(\pi,\mathcal B_{1},\mathcal B_{2})$
16 $\mathcal return\quad\frac{\mathcal A}{\pi}$
图16.6
从一组正字符串 $\mathcal S$ 学习可逆自动机的算法。
该算法维护一个状态对列表，其中对应的块将被合并，从任意选择的最终状态 $\mathcal f$ 的所有最终状态对 $(\mathcal f，\mathcal f^{'})$ 开始 $\mathcal f\in\mathcal F$ （第3行）。我们用 $\mathcal B(\mathcal q,\pi)$ 表示基于划分 $\pi$ 的包含 $\mathcal q$ 的块。
对于每个块 $\mathcal B$ 和字母符号 $\mathcal A\in\Sigma$ ，该算法还保持后继成功 $(\mathcal B,\mathcal a)$ ，即通过从 $\mathcal B$ 的状态读取 $\mathcal a$ 可以达到的状态；成功 $(\mathcal B,\mathcal a)=\emptyset$ 如果不存在这种状态。它类似地维护前一个 $\mathcal pred(\mathcal B,\mathcal a)$ ，这是一个允许标记为 $\mathcal a$ 的转换进入 $\mathcal B$ 中的状态的状态; $\mathcal pred(\mathcal B,\mathcal a)$ 如果不存在这种状态。
然后，当 $\mathcal LIST$ 不为空时，将从 $\mathcal LIST$ 中删除一对，并按如下方式处理。如果该对 $(\mathcal q_{1},\mathcal q_{1}^{'})$ 尚未合并，则将由 $\mathcal B_{1}=\mathcal B(\mathcal q_{1},\pi)$ 和B2=B（q2，π）的后继和前辈组成的对添加到 $\mathcal LIST$ 中

图16.7
可逆自动机的推理示例。 $(\mathcal a)$ 表示 $\mathcal S=(\epsilon,\mathcal aa,\mathcal bb,\mathcal aaaa,\mathcal abab,\mathcal abba,\mathcal baba)$ 的前缀树 $\mathcal PT(S)$ 。 $\mathcal (b)$ 由输入 $\mathcal S$ 的 $\mathcal L$ EARN $\mathcal R$ EVERSIBABLE $\mathcal A$ UTOMATA()返回的自动机 $\hat{A}$ 。双向箭头表示具有相同标签且方向相反的两个过渡。 $\hat{A}$ 所接受的语言是带有偶数个 $\mathcal as$ 和 $\mathcal bs$ 的字符串。

(第10-13行)在将块 $\mathcal B_{1}$ 和 $\mathcal B_{2}$ 合并为定义新分区 $\pi$ 的新块 $\mathcal B^{'}$ （第15行）之前，新块 $\mathcal B^{'}$ 的后续值和前置值定义如下（第14行）。对于每个符号的新块 $\mathcal a\in\Sigma$ , $\mathcal succ(\mathcal B^{'}，\mathcal a)=\emptyset$ ,如果 $\mathcal succ(\mathcal B_{1},\mathcal a)=\mathcal succ(\mathcal B_{2},\mathcal a)=\emptyset$ , 否则，如果 $\mathcal succ(\mathcal B^{'},\mathcal a)$ 为非空，则将其设置为 $\mathcal succ(\mathcal B_{1},\mathcal a)$ 中的一个，否则设置为 $\mathcal succ(\mathcal B_{2},\mathcal a)$ 。前置值的定义方式类似。图16。7说明了算法在 $\mathcal m=7$ 字符串的示例中的应用。
提议16.9
设S是一组有限的字符串，设 $\mathcal a=\mathcal PT(S)$ 是从 $\mathcal S$ 定义的前缀树自动机。然后，由 $\mathcal L$ EARN $\mathcal R$ EVERSIBLE $\mathcal A$ UTOMATA()定义的用于输入 $\mathcal S$ 的最终分区是 $\frac{\mathcal A}{\pi}$ 可逆的最细分区 $\pi$
证明
设 $\mathcal T$ 为输入样本 $\mathcal S$ 的算法迭代次数。我们用 $\pi_{\mathcal t}$ 表示算法在 $\mathcal T\geq1$ 之后定义的分区循环的迭代, $\pi_{\mathcal T}$ 为最终分区。
$\frac{\mathcal A}{\pi_{\mathcal T}}$ 是一个可逆自动机，因为所有最终状态都保证由于第3行的初始化步骤而合并到同一个块中，对于任何块 $\mathcal B$ ,根据算法的定义， $\mathcal A$ 可达到的状态 $\mathcal a\in\Sigma$ 来自 $\mathcal B$ 的 $\Sigma$ 包含在同一个块中，对于那些允许标记为 $\mathcal a$ 的过渡到 $\mathcal B$ 状态的情况也是如此。
设 $\pi^{'}$ 是 $\mathcal a$ 的状态的一个分区，其中 $\frac{\mathcal A}{\pi^{'}}$ 是可逆的。我们通过递推证明 $\pi_{\mathcal T}$ 细化了 ${\pi^{'}}$ 。显然，平凡的划分 ${\pi_{0}}$ 细化了 ${\pi^{'}}$ 。假设 ${\pi_{\mathcal s}}$ 精炼 ${\pi^{'}}$ 为所有 $\mathcal s\leq\mathcal t$ 由 $\pi_{\mathcal t=1}$ 通过合并两个块 $\mathcal B(\mathcal q_{1},\pi_{t})$ 和 $\mathcal B(\mathcal q_{2},\pi_{t})$ 得到。由于 $\pi_{t}$ 细化了 $\pi^{'}$ ，我们必须有 $\mathcal B(\mathcal q_{1},\pi_{t})\subseteq\mathcal B(\mathcal q_{1},\pi^{'})$ 。
定理16.10
设 $\mathcal S$ 是一组有限的字符串，设 $\mathcal a$ 是 $\mathcal L$ EARN $\mathcal R$ EVERSIBABLE $\mathcal A$ UTOMATA()在与输入 $\mathcal S$ 一起使用时返回的自动机。那么, $\mathcal L(\mathcal a)$ 是包含 $\mathcal S$ 的最小可逆语言。
证明
设 $\mathcal L$ 是包含 $\mathcal S$ 的可逆语言，设 $\mathcal A^{'}$ 是 $\mathcal L(\mathcal A^{'}=\mathcal L$ 的可逆自动机 $\epsilon$ 可以从 $\mathcal A^{'}$ 的初始状态读取 $\mathcal Pref(S)$ ，以达到 $\mathcal A^{'}$ 的某些状态 $\mathcal q(u)$ 。考虑仅通过保持形式 $\mathcal Q(u)$ 的状态和这些状态之间的转换从 $\mathcal A^{'}$ 导出的自动机 $\mathcal A^{''}$ 。 $\mathcal A^{''}$ 具有唯一的最终状态 $\mathcal A^{'}$ ,因为 $\mathcal q(u)$ 是最终状态 $\mathcal u\in\mathcal S$ 、,它的初始状态是 $\mathcal A^{'}$ ，因为 $\epsilon$ 是 $\mathcal S$ 字符串的前缀。此外， $\mathcal A^{''}$ 直接继承了 $\mathcal A^{'}$ 的确定性和反向确定性。因此， $\mathcal A^{''}$ 是可逆的。
$\mathcal A^{''}$ 的状态定义了 $\mathcal Pref(\mathcal S)$ 的分区: $\mathcal u,v\in\mathcal Pref(\mathcal S)$ 当 $\mathcal q(u)=\mathcal q(v)$ 时， $\mathcal Pref(S)在同一块中。由于根据前缀树$ \mathcal PT(S) $的定义，其状态可以用$ \mathcal Pref(S)标识，因此 $\mathcal A^{''}$ 的状态也定义了 $\mathcal pT(S)$ 状态的分区 $\pi^{'}$ ，因此 $\mathcal A^{''}=\frac{\mathcal pT(S)}{\pi^{'}}$ 。根据第16.9号提案。由算法 $\mathcal L$ EARN $\mathcal R$ EVERSIBABLE $\mathcal A$ UTOMATA()定义的分区 $\pi$ 是最精细的，因此 $\frac{\mathcal PT(S)}{\pi}$ 是可逆的。因此，我们必须有 $\frac{\mathcal L(PT(S)}{\pi}\subseteq\frac{\mathcal L(PT(S)}{\pi^{'}}=\mathcal L(\mathcal A^{''})$ 。由于 $\mathcal A^{''}$ 是 $\mathcal A^{'}$ 的子自动机, $\mathcal L包含$ \mathcal L(\mathcal A^{''}) $,因此\frac{\mathcal PT(S)}{\pi}=\mathcal L(a)$ ，从而得出结论。
定理16.11(可逆语言极限下的识别)假设 $\mathcal L$ 是一种可逆语言，那么算法 $\mathcal L$ EARN $\mathcal R$ EVERSIBABLE $\mathcal A$ UTOMATA()将 $\mathcal L$ 从一个正表示中识别出极限。
证明：让我们用一种可逆的语言。根据第16.8号提案。 $\mathcal L$ 允许有限特征样本 $\mathcal S_{L}$ 。让 $\mathcal (x_{n})_{n\in\mathbb{N}}$ 表示 $\mathcal L$ 的正表示，让 $\mathcal X_{n}$ 表示序列中第一个元素的并集。因为是有限的，所以存在 $\mathcal N\geq1$ 这样的话 $\mathcal S_{L}\subseteq\mathcal X_{N}$ 。根据定理16.10,对于任何 $\mathcal n\geq\mathcal N$ ,在有限样本上运行的 $\mathcal L$ EARN $\mathcal R$ EVERSIBABLE $\mathcal A$ UTOMATA()返回包含 $\mathcal x_{n}更进一步到\mathcal S_{L}$ 的最小可能语言 $\mathcal L^{'}$ ，根据 $\mathcal S_{L}$ 的定义，这意味着 $\mathcal L^{'}=\mathcal L$
实现学习可逆自动机算法所需的主要操作是标准的查找和合并，以确定状态所属的块，并将两个块合并为一个块。对于这些操作，使用不相交的集合数据结构，算法的时间复杂度可以显示为 $\mathcal O(\mathcal n\alpha(\mathcal n))$ ，其中 $\mathcal n$ 表示输入样本 $\mathcal S$ 中所有字符串的长度之和, $\alpha(\mathcal n)$ 表示阿克曼函数的倒数，这基本上是常数 $(\alpha(\mathcal n)\leq4代表\mathcal n\leq1080)$ .

16.5 章节注释

有关有限自动机和一些相关结果的概述，请参见Hopcroft和Ullman[1979]或Perrin[1990]最近的手册章节，以及M.Lothaire的系列书籍[Lothaire，1982，1990，2005]和De la Higuera[2010]最近的书籍。
定理16.2指出寻找最小一致 $\mathcal DFA$ 的问题是 $\mathcal NP$ 困难的，这是由于Gold[1978]。这一结果后来被Angluin[1978]扩展。Pitt和Warmuth[1993]进一步加强了这些结果，表明即使是最小自动机大小的多项式函数中的近似也是NP难的（定理16.3）。其硬度结果也适用于使用NFAs进行预测的情况。Kearns和Valiant[1994]根据密码假设给出了不同性质的结果。他们的结果表明，如果普遍接受的任何密码假设成立，则没有多项式时间算法可以从接受和拒绝字符串的有限样本中学习最小 $\mathcal DFA$ 大小的一致 $\mathcal NFAs$ 多项式：如果分解Blum整数是困难的；或者RSA公钥密码系统是否安全；或者如果确定二次剩余很难。最近，Chalermsook等人[2014]将Pitt和Warmuth[1993]的非近似保证提高到一个严格的界限。
在积极的一面，Trakhtenbrot和Barzdin[1973]表明，与输入数据一致的最小有限自动机可以从一个统一的完全样本中准确学习，其大小与自动机的大小成指数关系。他们算法的最坏情况复杂度是指数型的，但假设拓扑和标签是随机选择的[Trakhtenbrot和Barzdin，1973]，甚至拓扑是逆向选择的[Freund等人，1993]，则可以获得更好的平均情况复杂度。
Cortes、Kontorovich和Mohri[2007a]研究了在适当的高维特征空间中基于线性分离学习自动机的方法；另见Kontorovich等人[2006年、2008年]。字符串到该特征空间的映射可以使用第6章中介绍的有理核隐式定义，有理核本身通过加权自动机和传感器定义。
Angluin[1978]引入了查询学习模型，他还证明了有限自动机可以在最小自动机和最长反例大小的时间多项式中学习。Bergadano和Varrichio[1995]进一步将这一结果推广到任何领域上定义的学习加权自动机的问题（另见Bisht等人[2006]的优化算法）。使用域上最小加权自动机的大小与相应Hankel矩阵的秩之间的关系，可以显示许多其他概念类（如不相交 $\mathcal DFA$ ）的可学习性[Beimel et al.，2000]。我们对使用决策树的Angluin[1982]算法的有效实现的描述改编自Kearns和Vazirani[1994]。
Gold[1967]介绍并分析了自动机极限下的辨识模型。确定性有限自动机被证明在正面例子的极限下不可识别[Gold，1967]。但是，在一些子类的限制下，例如本章中考虑的可转换语言Angluin[1982]家族，对识别给出了积极的结果。积极的结果也适用于学习后续传感器Oncina等人[1993]。Ron等人[1995]也证明了一些有限类的概率自动机（如非循环概率自动机）是可有效学习的。
有大量的文献涉及学习自动机的问题。特别是，在使用查询进行学习的场景中，有限自动机的各种子族已显示出积极的结果，并且针对该问题介绍和分析了不同类型的学习场景。因此，本章中介绍的结果仅应视为对该材料的介绍。

16.6 练习

16.1 最小 $\mathcal DFA$ 。证明一个最小 $\mathcal DFAA$ 在所有其他 $\mathcal DFA$ 中也具有与 $\mathcal a$ 等价的最小转换数。证明一个语言 $\mathcal L$ 是正则的iff $\mathcal Q=\{{\mathcal Suff_L(u)}\:\mathcal u\in\Sigma^{*}\}$ 证明了 $\mathcal L(a)=\mathcal L$ 的最小 $\mathcal DFAA$ 的状态数正是 $\mathcal Q$ 的基数。

16.2 二维的有限自动机。
$\mathcal (a)$ 所有有限自动机族的 $\mathcal VC$ 维数是多少？这对有限自动机的 $\mathcal PAC$ 学习意味着什么？如果我们局限于学习非循环自动机（没有循环的自动机），这个结果会改变吗？
$\mathcal (b)$ 结果表明，最多有 $\mathcal (b)个态的$ \mathcal DFA $族的$ \mathcal VC $维数以\mathcal O(|\Sigma|\mathcal n\log_\ n)$ 为界。
16.3 会员查询的 $\mathcal PAC$ 学习。给出一个概念类 $\mathcal {C}$ 的示例，该概念类可以通过成员资格查询有效地进行 $\mathcal PAC$ 学习，但不能有效地准确地进行学习。
16.4 通过查询学习单调 $\mathcal DNF$ 公式。证明了 $\mathcal n$ 个变量上的单调 $\mathcal DNF$ 公式类可以通过成员关系和等价查询有效地精确学习。(提示：公式的素蕴涵 $\mathcal t$ 是一个文本的乘积，这样 $\mathcal t$ 意味着 $\mathcal f$ ，但 $\mathcal t$ 的适当子项并不意味着 $\mathcal f$ 。使用这样一个事实：对于单调 $\mathcal DNF$ ，素蕴涵的数量最多是公式的项数。)
16.5 使用不可靠的查询响应进行学习。考虑学习者必须在 $\mathcal [n]$ 内找到Oracle所选择的整数的问题。 $\geq$ 给出了1。为此，学员可以提出以下形式的问题 $(\mathcal x\leq\mathcal m?$ )或 $(\mathcal x>\mathcal m?$ )形式 $\mathcal m\in[n]$ 。oracle会回答这些问题，但可能会对 $\mathcal k$ 个问题给出错误的回答。学习者应该问多少问题来确定 $\mathcal x$ ？(提示：请注意，学员可以将每个问题重复 $\mathcal 2k+1$ 次，并使用多数票。)
16.6 学习可逆语言的算法。当应用于样本 $\mathcal S={\{ab，aaabb，aabbb，aabbb}\}$ 时，学习可逆语言的算法返回的 $\mathcal DFAA$ 是什么？假设我们向示例中添加一个新字符串，例如 $\mathcal x=abab$ 。应如何更新 $\mathcal A$ 以计算 $\mathcal S\cup{\{x}\}$ 的算法结果？更一般地，描述一种增量更新算法结果的方法。
16.7 $\mathcal k$ 可逆语言。一个有限自动机 $\mathcal A^{'}$ 被称为 $\mathcal k$ -确定的，如果它是一个前瞻 $\mathcal k$ 的确定模：如果两个不同的状态 $\mathcal p$ 和 $\mathcal q$ 都是初始状态，或者都是通过读取 $\mathcal A$ 从另一个状态 $\mathcal r$ 到达的 $\mathcal a\in\Sigma$ ,则在 $\mathcal A^{'}$ 中不能从 $\mathcal p$ 和 $\mathcal q$ 读取长度为 $\mathcal k$ 的字符串 $\mathcal u$ 。如果有限自动机 $\mathcal A$ 是确定性的，如果 $\mathcal A^{R}$ 是 $\mathcal k$ -可逆的。语言 $\mathcal L$ 是 $\mathcal k$ 可逆的，如果它被某个 $\mathcal k$ 可逆自动机接受。
$\mathcal (a)$ 证明 $\mathcal L$ 是任意字符串 $\mathcal u,u^{'},v\in\Sigma$ 的k-可逆iff 当 $\mathcal |v|=k$ 时，
$\mathcal (b)$ 证明一个k-可逆语言允许一个特征语言。
$\mathcal (c)$ 显示以下定义了学习可逆自动机的算法。按照学习可逆自动机的算法进行，但使用以下合并规则：合并块 $\mathcal B_{1}$ 和 $\mathcal B_{2}$ ，如果它们可以由其他块中长度为 $\mathcal k$ 的相同字符串 $\mathcal u$ 到达，并且如果 $\mathcal B_{1}$ 和 $\mathcal B_{2}$ 都是最终的或有一个共同的后继对象。

666