机器学习 chapter6.2

193 阅读7分钟

主要的问题是:在已知的时间和种群规模下,复杂的生物机制是如何进化的?幸运的是,关于生物学机制的本质,我们已经知道了很多达尔文和后来的所谓“现代合成”(Modern Synthesis)的缔造者,如罗纳德·费舍尔(Ronald fisher)所不知道的东西。我们现在所知道的人类生物学是基于人类基因组中编码的2万多种蛋白质。基因组进一步编码了一个网络,一个描述条件的网络,根据蛋白质在细胞中同时存在的浓度,这对特定的其他蛋白质的表达是必要的。人们认为,这些条件是由DNA中的调控区域编码的。在描述蛋白质或调节机制时的轻微错误都可能使生物体无法存活。如此多联锁部件的复杂机构如何在不断变化的环境中维持自身并演化为更复杂的形式,目前还无法定量解释。当然,达尔文没有资格如此明确地提出这个问题。很有可能,自达尔文时代以来的这些年里,人们一直没有找到可证明有效的具体达尔文机制,原因很简单,就是人们在这方面投入的努力不够。

为了更完整地说明地球上进化的机制,人们需要了解每一代的基因组是如何从上一代的基因组中派生出来的。一个简单的假设是,至少对无性物种来说,DNA序列中的每一对碱基对都会以同样固定的小概率,随机地转向其他三种可能性中的一种。然而,没有证据表明这种简单的推导机制就是所发生的事情。同样重要的是,没有证据表明这种简单的机制能够以生物学中发生的速度导致进化。将达尔文进化论视为一种学习机制提供了一条前进的道路。这种方法使我们不仅可以考虑一种可能的变异机制,比如这一种,还可以考虑许多种,并探索所有可能的这种机制的最终限制。我们有充分的理由相信,如果我们要理解进化如何能像在地球上那样迅速地产生日益复杂的形式,那么这样一个更系统的分析是必要的。

正如前一章所描述的,计算学习只不过是关于如何在没有设计师的情况下获得计算机制的定量研究。生活中充满了计算机制。如果我们想要了解这些机制以及生命本身是如何在没有设计师的情况下产生的,那么计算学习正是我们需要关注的地方。一方面,这种方法可能会让那些希望生物进化从未知来源获得神奇力量的人感到失望。另一方面,它也有积极的一面,即它提供了一种可供构建的现有理论。

哺乳动物的进化为我们在可预见的未来了解这种方法提供了条件。哺乳动物代表了地球上2亿多年的进化,它们有许多不同物种之间相似的蛋白质,很可能物种之间的许多重要差异是由于这些蛋白质的调节在不同物种之间的差异,而不是蛋白质本身的差异。因此,合理的第一步是,在只有蛋白质调节机制可以改变的简化假设下,尝试理解拥有一套固定蛋白质的物种如何在不断变化的环境和生态条件下维持自身并进化。

我们在前几章中看到过,例如连词或析取词在这个思想实验中,有,比如说,20000个变量,x1x_1,…,x20000x_{20000},它们表示是否(或在什么浓度下)每个蛋白质p1p_1,…,p20000p_{20000}存在。对于每一个蛋白质pip_i,都有一个所谓的输入函数FiF_i,它包含20,000个变量,指定是否(或在什么水平上)该蛋白质将被表达这些输入函数一定属于这类函数的某一类

我们可以从数学上把这些函数描述为来自某个C类的集合,例如,成员F7F_7描述了第7个蛋白的表达水平。问题是,F7F_7是如何依赖于20000个变量的。它可能只取决于三个浓度水平,比如x23x_{23}x136x_{136}x7641x_{7641}。但是依赖关系是什么呢?它可以是

 

F7F_7(x1x_1,…,x20000x_{20000}) = 3.2x23x_{23} + 0.42x136x_{136} + 1.03x7641x_{7641}

 

或者它可以是一个类似的函数,有相同的三个变量,但有其他参数。或者它可能是一个涉及二次项的非线性函数,或者是完全不同的东西。选择一类函数来探究这些问题,呈现出一个明显的困境,即锡拉和卡律布狄斯之间的困境。如果类别太有限,那么所隐含的生物机制将是如此有限,以至于不足以表达生命所需的复杂机制。另一方面,如果C语言太过广泛,那么可能就没有任何达尔文式的进化算法能够足够快地在可能函数的复杂空间中导航,从而允许在有限的可用时间内进行适应。换句话说,对于一个太广泛的函数类,将不会有进化算法,而对于一个太严格的函数类,将不会有生物学。这些都是达尔文和费雪没有资格提出的问题。

我们这里用的输入函数的例子是一组固定的蛋白质,这只是一个具体的子问题。真正的问题更加困难,因为我们还需要了解其他类型的电路,比如那些模拟进化蛋白质的电路。然而,我相信,更普遍的问题也会被类似的障碍所控制,并且可以使用相同的方法来解决。

任何进化理论都不能被认为是完整的,除非它详细描述了函数类,以及一个实际的进化算法,可以导航它。至少,我们需要证明存在一些可行的算法和函数类。在这样一个论证完成之后,达尔文的理论将不仅仅是一个比喻。

有些人可能会质疑这种对达尔文机制的强调,例如,拉马克的进化论,该理论早于达尔文,并考虑了广泛的行为类别不仅影响下一代,而且影响后代的可能性。确实存在这样的继承机制。例如,怀孕的雌性可能会因饮食不良而影响其后代的健康。精子和卵子包含的物质比抽象的DNA串描述更多。至少在原则上,有许多途径可以从父母那里遗传,这些途径依赖于不包含在DNA中的信息。

这种途径被称为表观遗传学表观遗传机制是否能显著加快进化过程中功能变化的速度,这是一个悬而未决的问题。幸运的是,我们可以在这里继续,而不需要解决它。这不仅仅是因为似乎没有什么证据表明这些对地球上的长期进化速度有显著的积极影响,尽管这可能是完全遵循达尔文模型的充分理由。相反,这门课程是合理的,因为任何不能被视为达尔文主义的表观遗传机制也可以被表述为学习,尽管可能是一种不那么受约束的方式。因此,如果有人希望证明某些似是而非的表观遗传机制能产生比达尔文学说更强大的进化,并能更好地解释地球上的生物学,那么计算学习仍将是其工作的框架。