AIDD—数据困境
-
【业界本身成熟的数据就很少】
自近代工业革命以来,我们人类累计发现的新药也不过几千个,而这些新药分布在成百上千的适应症和靶点上面,平均到每个靶点下,新药数量往往只有个位数。
-
【格式】数据格式的混乱,难以统一
数据格式不统一是导致数据量不足的一个主要因素。很多的活性数据是来自于文献或者药物专利。这些数据来自全球==各地不同的实验室,而每个实验室的实验习惯,数据标准截然不同,比如有的实验室习惯性用 IC50,有的实验室习惯性用来 Ki 表示药物的活性。当我们把这些数据汇集在一起的时候,就面临着数据标准不统一,数据质量不高的问题。
-
【医药工业特质——数据即资产】数据共享的隐私性问题
很多药物研发的数据其实是在各大制药公司手里面的。这些数据的巨大商业价值导致这些制药公司不会轻易将其提供给AI制药公司。因此,各个制药公司就形成了一个个信息孤岛,各自为战,难以形成合力,使得数据量有限的局面更加雪上加霜
AIDD——如何走出困境?算法/技术手段
-
数据增强【SMILES】
SMILES转化规则也很简单:将化合物里面的氢原子拿掉以后,剩余的CNOS等重原子按照它们的连接次序表示出来,便形成了这个化合物的SMILES代码。
每一个药物分子的SMILES代码表示方法并不是唯一的,对同一个化合物,根据起始表示原子的不同,会有很多种不同的SMILES代码表示方法。
数据增强思路:我们把同一个化合物的各种不同SMILES表示方法,都输入给神经网络。与单一的SMILES输入方式相比,这种多输入SMILES代码的方法更有利于模型学习相关的知识。
-
迁移学习 【知识迁移】
举个例子:我们可能对某一种激酶比较熟悉,积累了大量的数据,具体包括这种激酶的三维结构以及相应的抑制剂等等,当我们发现了它们家族的某一种新的激酶的时候,我们可以断定,这两类激酶在三维结构以及抑制剂的结构上面是会存在着某些相似性的,这样我们在老的激酶上面学习到的很多知识便可以直接迁移到新激酶上面来了,从而大大缓解了新激酶因为刚刚发现而数据量不足的问题。
小样本学习(Zero/One-Shot Learning):迁移学习中存在一种特例情况。在这种场景下,模型在经过大量其他数据的训练后,只需要少量的目标数据就能快速学习到新的事物的关键信息。这类学习方式非常适合数据量极少的新药发现场景。针对一种新的靶点,仅仅通过少量的药物数据,模型便能够掌握该靶点药物研发的规律。
-
保护隐私的共享学习 【合力出奇迹】
它一共经过了这么几个演化阶段:首先是最简单的 Local Learning,从原理上来说,如果本地有足够的数据和计算资源,那么深度学习就可以在本地进行。然而在多数情况下,本地药物数据是不足的。于是便出现了 Central Learning:将不同来源的数据集中化,来解决本地学习中数据不足的问题,可是这样存在很严重的数据隐私性保密问题了解决这个保密性的问题,Federal Learning 运而生,它可以让数据保存在各大制药公司手中,但是深度学习模型部署在异地的AI公司,这就解决了数据的保密性问题。在联邦学习中,模型参数仍然由部署在AI公司的中央节点处理,这就造成了权力的过度集中。作为一个基于分布式机器学习和区块链的去中心化的技术,群体学习的出现既保证了数据的隐私性,又避免了中心节点权力过大的问题。
AIDD-模型有哪些?
序列模型
-
循环神经网络,简称RNN,它主要用来处理序列性的问题,在自然语言处理上面有着非常广泛的应用,比如机器翻译、智能音箱、智能客服等等。凡是跟文字或者语言相关的应用场景,RNN都有着非常出色的表现。我们前面提到,一个药物转换成SMILES代码。这个SMILES代码便可以看作一句文本,因此,RNN这种神经网络便可以用来处理药物发现中的一些问题,比如活性预测问题,类药性问题,合成路线设计问题等等。以药物的合成问题为例,从反应物到产物的这样一个化学反应问题,便可以看作中文和英文之间的翻译问题,RNN这种处理机器翻译的模型能够很好地处理这个药物合成问题了。事实证明,同传统的机器学习模型相比,把一个药物研发问题看作自然语言处理问题的方式,能够大大的提高药物的研发效率。
-
在2017年的时候,Google公司又发布了另外一个更加强大的自然语言处理模型-Transformer。这个模型基于Attention的机制,在自然语言处理问题方面,大大超过了之前的RNN模型。除此之外,该模型在图像处理方面也优于之前的卷积神经网络CNN。此外,在药物发现领域,Transformer模型也具有良好的应用前景:比如说Google公司开发的Bert模型或者微软公司开发的Mass模型等Transformer变体,都在药物发现上面都有着很好的表现。
图模型【更理性】
我们除了可以把药物分子看作一句话,一种序列输入之外,也可以将其看成一个Graph。节点和边组成了Graph,而一个药物分子也是由化学原子和化学键组成的,其中化学原子可以看做节点,化学键可以看做边。图神经网络当中进一步引入了卷积神经网络CNN中的卷积概念,从而形成了图卷神经网络,将图神经网络的功效得到了进一步提升。图卷积神经网络GCN,在很多药物发现的场景上面,甚至超过了前面的Transformer模型,它所涵盖的点和线的概念与我们药物分子中的化学原子和化学键的概念是十分相似的。
AIDD——行业现状
- 创始人背景:多80/90后。同其他医药行业子行业创业者多为医药从业者不同,AI制药公司的很多创始人都是计算机背景出身的。
- 公司起源:显示了非常强的产学研的属性。很多公司都是由高校科研院所的教授课题组孵化而来的。
- MIT背景居多:MIT 背景的引入可能是一个趋势
- 行业互联网化:由于很多创始人是CS背景跨界入行,故AI制药行业出现了很多互联网企业所具备的特点,例如,风口期,企业如雨后春笋,多且迅速。
- 融资迅猛:融资不断刷新认知,甚至呈现“病态”趋势,从一两年前的几千万融资主流,到现在逐渐步入了亿元人民币甚至亿元美金时代。当然了,近两年临床的失败,也逐渐冷静下来了
LINK
“第三届全球生物医药前沿技术大会AI赋能新药创新开发论坛 写意报告丨AI制药的再思考:药物发现阶段的数据困境 - 知乎 (zhihu.com)