第二章Prediction and Adaptation(预测和适应)
“你从来不会走进一个环境,相信你比当地人更了解。你不得不去听去环顾四周。否则,你会犯下一些严重的错误。”这是联合国前秘书长Kofi Annan学到的一课,不是在联合国一些遥远的外交任命,而是作为一个在St.Paul.Minnesota的年轻人。他曾经从非洲来学习作为本科的经济学。他面对寒冷天气缺乏经验,当他第一次看到当地的学生带上耳罩,他觉得他们看起来很荒谬。但是在寒冷的天气走了一圈后,他出去给他自己买了一些。
Ecorithms的逻辑与Annan的分析有很大的共同之处。那个逻辑强调倾听和环顾四周。它鼓励谨慎地将在一个环境中获得的专业知识应用到另一个环境中,并且尊重观察到的经验,也就是说我们必须寻求适应。
大多数警句缺乏这种迫切的适应性。“既不是借款人也不是贷款人”督促一个人以特定方式行事,而不是去适应一个人的环境。遵循此类非适应性建议的陷阱是很显而易见的。虽然在某些情况下建议是好的,也许是那些是从中衍生出来的,其他情况可能不是。
Annan的理论具有接受许多可能的世界并警告不要假设它们都是相同的力量。在另一方面,它在规定行为方案时不太具体。我认为生物学和认知的一些最重要的现象来自类似于Annan的一般适应策略,因为它们可能看起来有一些特定的专家知识。虽然这种策略作为听起来和看起来没有给任何特定的环境进行微调,尽管如此,它们可能在所有复杂性中隐藏的某些弱规律的环境中都有效。我会建议不仅有效,而且进一步它们任何对生活和文化的解释都不可或缺的是我们在地球上见证了这些。
我用来封装这些想法的新单词ecorithm来自Word算法和前缀。算法就是一些明确的过程。它来自九世纪在Baghdad的智慧之家工作,并在代数上创作了一本具有影响力的书的mathematician Al-Khwārizmī名称的Latinized音译alloritmi。我有意的调用这个词"算法"。在它最广泛使用的领域中,即计算机科学,明确的标准-被认为是良好的定义-很高。计算机科学家Donald Knuth的话:“科学就是我们理解得足以解释给电脑。艺术是我们所做的一切。”我想在算法方面讨论演变,学习和智能,这些是可以“解释为”的算法,从而通过计算机模拟。eco前缀,来自古希腊文字oikos意思是家庭(并且唤起了生态学词),我们对在复杂环境中运行的算法感兴趣的信号,特别是比算法本身更复杂的环境。这没有矛盾。虽然该算法在复杂的环境中表现良好,但它最初没有知识,如果允许它与环境广泛交互并学习,它有机会这样做。
在计算领域内,我进行以下区别。在传统上研究数学和计算机科学的算法旨在解决特定问题的实例,就像求解代数方程或搜索文本中的单词。它们成功所需的所有专业知识都是由他们的设计师的描述编码。例如,在他的教科书中的Euclid元素描述了一种简练的算法,用于找到两个数字的最大公约数。(30和42的最大公约数是6。)他的算法即使是任意大的数也是在某种特定意义上正确而有效的。毫无疑问,Euclid预见它在所有数对上的精确行为是完全可预测的。
Ecorithms是特殊算法。与旨在解决特定数学问题相比,这些运行在设计师不完全已知的环境中,可能有很多随意性。然而,即使在这些环境中,ecorithms也可以很好的地执行。虽然它们的成功是可以预见的,但它们的实际进程要根据环境的不同采取不同的措施。
这种算法必须满足提供对自然现象的合理解释的要求,例如生物进化是相当繁重的,特别的是,算法在有限数量的互动和有限资源支出之后必须实现其目标。生态学的概念和它们被嵌入的学习的一般模式,我称之为大概是正确的(或PAC)学习,坚持定量实用性。它们寻求解释的现象是人类体验最熟悉的一些:学习,弹性和适应。我认为更广泛的现象,特别是进化和智力,也可以最好地理解这些条款。
生物学的演变是人生形式随时间变化的想法,这些变化导致了今天地球上所看到的生物体。虽然与Charles Darwin密切相关,但这一思想根源于古代,并且认识到各种动植物物种之间的相似性。在近代历史中,Charles Darwin的祖父Erasmus Darwin写了一篇论文,Zoonomia;or,The Laws of Organic Life,在1790年代争论这个想法。这种观点是广泛的辩论和争议。在一个高度影响力的书籍中,自然神学(1802年),William Paley认为生活就像它一样复杂,在没有设计师的帮助下就无法存在。两个世纪里已经有了大量的证据,因为通过遗传学和化石记录,说服了专业生物学家地球上现有的生命形式确实是相关的,而且确实是进化的。这个证据违背了Paley的结论,但它不能直接否决他的论点。对Paley的直接反驳是需要一个特定的演化机制,能够证明现在在生物学中发现的复杂性的时间和资源。
当然,Charles Darwin的主要贡献是非常激励人的。他提出了进化机制两个主要部分,即变异和自然选择,他认为这足以在没有设计者的情况下解释地球上的生物进化。以其最简单的形式,自然科学理论选择断言每个生物体都有一定程度在给定环境中的适应度,并且能够产生一系列的变种作为后代。然后将进化归因于具有以下特征的变体、个体:构成更大的适应度的后代比适应度弱的更健康。
生物学家普遍认为达尔文的理论基本上是正确的。生物化学对为生命基础的描述提供了一种具体的语言,根据这种语言,地球上生命的实际进化路径有一天可能会被详细阐述和解释。在目前,我们的知识还存在许多差距。DNA(基因型)和它所属有机体的行为和生理学(表型)鲜为人知。尽管如此,在过去的150年里,达尔文的理论通过大量的其他证据成为了生物学的中心思想和信条。最近,DNA测序通过实验证明给出了无可争议的结论:地球上发现的各种生命形式在基因上是相关的。我在这里所说的一切都不是有意或被解释为对这以结论的怀疑。然而,达尔文目前只提出了机制的提纲。它不够具体以至于无法定量分析或计算机模拟。没有人已经展示出任何版本的变化和选择可以定量地解释我们在地球上看到的东西。其中包括移动、视觉、飞行、磁导航和回波定位。人类只有在付出巨大的努力之后,才能找到解决身体极限的人工方法。进化的成就是显而易见的,客观上令人印象深刻。随着我们目前了解的这些条款,各种版本的变化和选择可能仍然需要一百万次去获得超过现有的生命形式。说进化是一场竞赛甚至是一场为生活而奋斗的一场竞斗争并不能很好地解释这些事实。目前没有理论能够解释它本身如何通过竞争导致了如此惊人的成就彩票、歌唱比赛和角斗士比赛都没有产生类似的改进或新颖性。进化是一个特殊类型的比赛。我们该怎样去了解这场特别多的比赛,无论是怎样的比赛,是如何产生了令人叹为观止的发明?
进化一词几乎可以勾起许多想象——地球生命史的各个方面。我会重点关注有多复杂的机制可能在有限时间范围内出现以及它们显然拥有的资源这个主要问题。很多问题被进化论理论家广泛讨论,我认为进化论理论家是次要的。性给进化的带来的好处有多方面的争辩,但当性来临时,进化还很漫长。理解孔雀如何可以获得它们精心制作的羽毛这一智力挑战让达尔文很困扰。但是,孔雀还是出现在了实验后期。简而言之,我寻求解决的是自然选择目前所理解的一般规定和任何可以解释我们周围的生物证据的证明之间的分歧。每个科学理论都有一个缺少一些问题的解释的缺口,进化在这方面绝不是独一无二的。有缺口并不是致命的缺陷。然而,只要人类世代的行为进化需要一定的复杂性,目前制定的自然选择假说就有着无法弥补的巨大差距。我认为现在是努力填补这一缺口的时机,我相信计算机科学是做这件事的工具。
这可能是一个非传统的说法,但我将证明达尔文理论是计算机科学的核心。达尔文理论升职可以被视为典型的生态思想。计算的一个最基本的特征是机制的物理实现和表现行为的分离。达尔文理论也是如此。虽然生物有机体的适应性取决于生物体的生物化学和所有环境中存在的的物理学、化学、生态因素,自然选择的原则中没有提到生物化学、物理和生态学,它不包含关于在特定环境中特定物种适应性的特定知识。我们被推动到几乎矛盾的结论,在物理、生物化学和生态学这样一个复杂的专业知识下工作的生物是一般机制的产品,没有这种专业知识。这种引人注目的对比总结了生态学的基本挑战,特别需要克服生态学和进化算法。
考虑到达尔文的理论现在在生物学中发挥的核心作用,以下事实不仅仅是一点令人不安的事。从第一款可用的数字计算机许多智能化,好奇心驱动的个体已经寻求模拟基于选择的进化算法来证明它们的功效。这些模拟实验进行了半个多世纪,这一情况至少在我看来令人失望,在创造漫长的机制让人想起活细胞中发现的机制。事实上,这些实验很少被引用为进化的证据。
这种失败不能忽略。这表明如果要提供更具解释性科学理论,则必须以某种方式改进自然选择假说。此外,改进需要显然已经足以支持这种宇宙中进化的能够反映几代人的实际数量和每一代人的各个体人数的现实的定量组分。这种演变可显而易见很少争议的可以在某种程度原则上工作。但是,现代人类的存在被认为不超过10000代,并且对于大部分历史都具有适度的人口规模。我们先前的物种可能有相同的统计数字。进化论认为人类拥有无限的资源在世代或种群规模中进化,或者并没有完全解决这个问题,无法解决是否存在某种自然选择符合这个宇宙中的约束条件。
我不是第一个指出在进化需要很长时间和从物理科学研究表明的有限资源之间的紧张关系。没有人比达尔文更了解这种紧张。为了找到证据证明在很长一段时间里,他进化是需要的,他转向了地质学。在《物种起源》的第一版中他估计英格兰南部经过3亿年形成了Weald formation地层。这一估计立刻遭到了来自科学界的抨击。达尔文省略了这一点,也没有从其他的后续版本中得出这类估计。William Thomson(后来的Lord Kelvin)和其他的权威物理学家嘲笑达尔文的估计甚至比地球本身的年龄还长。他们的论点是基于应用物理学原理来理解地球热散失的速度问题。这间接攻击了他的进化论,这让达尔文产生了很多顾虑。他写到:“Thomson对近代世界上的观点一直是我最痛苦的烦恼之一。“Kelvin的最后出版估计值低于至2400万年。幸亏物理学家现在估计的地球年龄大约有45以亿年(宇宙为138亿年)。尽管如此,我们物理科学家仍然不能定量的解释生命如何在这种即使更大范围内无论是在地球上还是在更广泛的宇宙中,也能达到当前的状态的情况。
在这里提供的理论,将达尔文进化作为计算机学习机制和定量分析行为是我唯一知道的明确解决这些问题的方法。以前的数学进化方法,如遗传学,分析人口规模竞争的影响。比如,著名的Hardy-Weinberg二十世纪初的原理表明,如果是有性生殖且群体的成员的基因有两个副本,和人类一样,人类的多样性基因库将在以下意义上被保存。如果一个基因的两个变体存在于一定比例的人口中且它们同样有益,那么这两种变体在人群中的发生率将趋于稳定。然而,像这样的相对人口规模并不能说明更复杂的形式是如何从更简单的形式形成的,这是最重要的问题和进化论的反对者通常瞄准的目标。如果一个人在没有解决方案的情况下假装有解决方案,那么他就不是在为科学服务。
在过去的半个世纪里,生物学的进步取得了巨大的进步,具体什么需要以早期人口遗传学先驱Ronald Fisher不知道的方式来解释。我们现在知道生物有机体受蛋白质表达网的控制。为了了解进化,我们需要解释这些复杂回路如何从更简单的电路发展并在变化的环境中保持自己。我们已知的生物学蛋白质网络具有超过20,000个基因,并且它们产生的输出以及其复杂的方式依赖于无数可能的输入组合。这些回路解释了我们细胞中许多蛋白质的浓度水平是如何相互控制的。我们可以寻找数学描述它们。例如,我们第七个蛋白质产生的量可能取决于三个其他蛋白质的浓度——第三个、二十一和七十三。依赖性是特定的,可能f7 = 1.7x3 +3.4x21 + 0.5x73,或者更有可能是其他的什么。但在任何情况下,它是所有可用蛋白质上的一些特定依赖性 f7(x1,…, x20,000) ,并且可能在一些附加参数上,例如温度。无论这个f7依赖性是什么,如果其他一些这样的依赖性由于不断变化对生物体更有益,则会改变。
进化论必须做的是解释这些依赖性如何在演变期间更新。如果环境发生变化,将需要多长时间才能进化到新功能f'7,以便新功能f'7比旧f7更好?当然,这只能解释一组固定蛋白质的进化。一个成功的理论还必须解释新蛋白质的进化。我相信这会需要类似的分析,倘若没有不同的回路。
在过去几十年中,它已经出现了适用于存在和效率与物理定律一样引人注目的算法。这些计算定律对给我们的世界提供了一个强大的新观点,符合生物学事实奠定了进化和学习的挑战。与这些最相关的法定律现象不同于那些对数字计算机程序员最重要的定律,他们需要另行调查。这将是我们的出发点。
这里的任何内容都不作为任何涉及的话题的最后一句话。我提出的方法需要广泛的讨论内部开发以及与之相关的实验科学。数学方程式对于表达这些物理定律很有用,实验室实验可以揭示化学事实,并且社会科学的统计分析得到了关于因果关系的线索都得到了广泛认同。但是,自然现象可以被理解为计算过程或算法更新。然而,我毫无怀疑算法观点作为武器库将在众多领域中占据一席之地,用于发现自然的秘密。我希望在这里提供这种算法如何占据科学中心地位的视角。但是,我们首先必须转向一般计算过程的性质和范围问题。