机器学习cheapter4

205 阅读8分钟

第四回

自然的机械解释我们可能会寻找什么?

如果我说我们不接受他们的观察,除非他们被理论证实,我希望这不会让实验物理学家太吃惊。(阿琴爱丁顿)
1953年2月28日,弗朗西斯克里克 GFraneis Crick )向英国剑桥老度酒吧的顾客宣布,他和詹姆斯。沃森( James Watson)发现了“生命的秘密”。他们发现DNA是双链旋结构,当时人们怀疑这种分子是遗传載体。这种结构,两条链包含相同的信息,暗示细胞可他在复制过程中复制其 DNA 的过程。两条链简单地分开,每条链都携带着在它自己的新细胞中产生一个新的双版本的所有信息。
在人类基因组的内容广为人知后,令人震惊的是DNA 序列的知识本身并不能解开生命的所有秘密。该序列指定了人类生物化学的回路,但在我们仅部分理解的代码中。在克里克和沃森的发现半个多世纪之后,我们仍然对细何利用序列知识来了解活细胞内部的物躍过程或帮助治愈疾病知之甚少。尽管我们知道我们不知道的一切,但我们确实对 DN 的计算性质有一些了解。一条 INA 链由一系列核敵基组成,每个碱基都是四种不同化学物质中的一种,腺嘌呤、鸟嘌呤、胸腺嘧啶和尿嘧啶。碱基序列包含由活細胞携带并由其后代维承的信息。可能看起来很初级,但仍然值得注意的是,信息在 DNA 中的表示方式与在图灵机中表示的方式相同,都是来自固定字母表的符号序列。在 DNA 的情况下,字母表有四个符号 A 、 G 、 T 、 C .代表四个核臧基:正如图灵所示,来自周定有限字母表的一维符号列可以播述和支特所有计算。
DNA中的信息存储在一个序列中,这只是生物学可以被视为计算的多种方式中的第一种也是最直接的方式。当铜胞分颗时,基本序列被扫描以进行复制,就像图灵机险带在计算过程中一样:随机突变是通过将一个就基更改为另一个段基来实現的,糯像隨机化图灵机更改符号一样。由于在复制时可能会出现错误,因此还需要纠正错误的方法。
在活细胞和更大的结构(例如我们的神烃网络)中进行的操作也可以被视为许多更深层次的计算。一个是在序列定义的蛋白质表达回路的水平上。在任何时候。拥胞中都会表达(产生)一些蛋白质。这些蛋自质又会根据蛋白质表让国露中中用定的机互依幢性导致其他蛋白质的表达。在不同的尺度上,种经系可以同样铱视为一个啡常人的电络,它执行复杂的计算,我们目前也只了解一点
我们还可以提出更高层次的问题,即这些蛋白质或种经国路本身是如何产生和维特的。进化是通过修改 DNA 序列井因此在蛋白质国路中实现的。这些修改也可看作是计算。关于神经网格,生物体通过调整共种经元以响应事件来学习。这些适应又是计算。
图灵本人在他的形态发生理论或形状发展理论中给出了生物学计算观点的一个早期例子.这对见考胚胎的许多细胞如何分化并在复杂的生物体中扮演各种角色产生了相当大的影响,尽管它们来自一个未粉化的细胞。除其他外,图灵认为。动物皮毛上真骏图案的广泛变化,无论是班点狗还是豹了,都可是由于发育过程中的随机变化造成的,即使这些动物在基国上都是相同的。图灵通过模拟证明了他的建议(如图4.2所示)。他给出了计算科学最早的例子之一,即不仅可以通过物理实验或假设理染,还可以以通算模拟来发现关世界的事实。\这种模拟有时可以迫求假设理论的结果,超出数学分析的能力范围。\

38AC7BFD54D9FCCBDF65B4ED4D71F08B.jpg

图41电路示意图。一种情况由输入到电路的值 xy 、和 t 来描述。电路的响应值为 w 。每个电路组件对输入值或先前操作的结果执行一些操作。电路可以被视为一种通用计算,其中各种输入、输出和中间计算值之间的依赖关系可以明确,如下图所示。如果神经回路或蛋白质回路在通常遇到的情况下对回路的拥有者有益,那么它就是有效的。对于无理论的决定,电路在所有者最常遇到的情况下有效就足够了一一不需要理论或理解它为什么有效。 Ecorithms 是获取和保持这种电路协调一致的机制。
因此,生物学基于许多不同层次的复杂机制,而这些机制目前还鲜为人知。克里克和沃森所做的是发现了代表可遗传信息的物理基底,就像硅是当今计算机的物理基底一样。对于这两种基板,令人印象深刻的是如何以尽可能小的微型化和经济性来实现对它们施加的严格要求。然面,没有人会说计算机的秘密在于硅,因为计算机可以在许多其他物理基板上同样很好地实现,尽管目前可能不太经济。事上,计算机发展如此迅連的一个原因是,计算机科学家在一开始就在实现计算机的物理技术与在机器上执行的算法内容之间进行了概念分离。这使硬件、软件、和算法以自己惊人的速度独立进化。\

D7B89AB94AFB1EDAD7881B5F9BF38C53.jpg

图4.2让人联想到图灵通过计算过程得出的动物皮毛的斑纹图案。2获得的特定图案是由在该过程的早期阶段进行的微小随机变化决定的,而不是由任何预编程或遗传元素决定的。短水平线是生成过程的比例指示器。每次运行随机过程时,都会得到非常不同但同样自然的模式。图灵评论说他“通过人工计算在几个小时内得到了这张图”-一显然他没有可用的机器。(版权所有1952,皇家学会)
在我们的生物学研究中取得类似的进展,无论是进化的还是认知的,都需要将算法和基质进行相同的分离。3这里对物理对象与其执行的信息处理之间的区别对于任何与计算机打交道的人来说都是不言而喻的。这种区别绝不是徹妙的。即使是交通灯,也可以很容易地区分其象征功能和物理结构。但也许这些区别在以前井不都么明显。笛卡尔及其追随者的身心问题可能是对这种区别的较早参考。但是现在当计算机无处不在时,没有理由混涌“它做什么”和“它做什么”。
在继续讨论生物学可以实现哪些算法的问题之前,我注意到学习理论也可以在不同的意义上为生物学研究提供信息。进行实验的生物学家可以被视为希望揭示特定系统复杂机制的学习者,正如我们将看到的,可以学习的机制的复杂性存在固有的限制。我们将在下一章看到的可学习内容的限制可能被视为警告信号,表明实验行为数据的积累本身可能不一定会导致瑁解系统如何工作的进展。几千年来,人类个体的行为一直披切观察和广泛记录,但我们对引起这些行为的大脑机制知之其少。
在艾伦图灵世后,他的导师兼朋友马克斯纽曼是在讣告中描述了激发图灵对科学的许多贡献的中心主题:“图灵己发表作品的不同标题掩盖了其目的的统一。他开始井不断返回的核心问题是对自然的机版解释的范围和局限性。4这是一个富有洞察力的摧述,我们应该感谢一位非常了解图灵的人。它强调需要研究“范围和局限性”,这两者都将成为计算机科学的基本特征。表征进一步说明了图灵探索的新颗性,即虽然已建立的科学一物理学、化学和生物学——旨在机械解释,但自然也需要一种这些旧科学没有解决的解释,在图灵20世纪中期的著作中,人们已经可以察觉到21世纪的脉搏。图灵在历史上的地位由他的发现和成功追求这一先前未曾预料的科学维度得到了保证
033DE38A9720AAEDBD27E3D328364F9D.jpg