本文已参与「新人创作礼」活动.一起开启掘金创作之路。
摘 要
目前,抗激素治疗常用于ERα表达的乳腺癌患者,其通过调节雌激素受体活性来控制体内雌激素水平。ERα被认为是治疗乳腺癌的重要靶标,能够拮抗ERα活性的化合物可能是治疗乳腺癌的候选药物,通常采用建立化合物活性预测模型的方法来筛选潜在活性化合物,这对于乳腺癌的治疗有重要的作用。因此在本文中我们研究了化合物的分子描述符筛选、化合物活性预测、ADMET性质预测,另外研究了满足化合物活性和ADMET性质的分子描述符筛选方法和求解取值范围算法,具体研究思路和研究方法如下所示:
针对问题1,为了针对1974个化合物的729个分子描述符,选择出前20个对生物活性最具有显著影响的分子描述符,文章设计了基于线性回归模型、Lasso 回归模型、岭回归模型和弹性网络回归模型的分子描述符筛选算法,在进行数据标准化处理和皮尔森系数处理后,从四种回归模型选择出效果最好的筛选模型,进行分子描述符的筛选,获得了对活性预测最有效的一组分子描述符数据。
针对问题2,为了结合问题1提出的变量构建化合物对ERα生物活性的定量预测模型,对文件“ERα_activity.xlsx”的test表中的50个化合物进行IC50值和对应的pIC50值预测。文章提出了基于随机森林模型和Lasso 回归模型的pIC50值预测算法。首先根据问题1筛选的分子描述符进行训练,检测模型的预测性能,从而选择出精度较高的模型,然后再用训练效果最好的模型对ERα生物活性进行预测,获得pIC50值预测结果。最后根据IC50值和pIC50值的负对数关系,求出IC50值。
针对问题3,为了利用“Molecular_Descriptor.xlsx” 文件提供的729个分子描述符,对文件“ADMET.xlsx”的test表中的50个化合物的的Caco-2、CYP3A4、hERG、HOB、M进行相应的预测,文章设计了以下预测算法:首先进行数据清洗,包括标准化处理和皮尔森相关系数处理,去除相关性较高的变量;然后利用第1问的筛选算法选择出对ADMET性质有较大作用的变量;接着设计了基于过采样的样本均衡检测及处理算法,使正负样本数为1:1;最后针对化合物的Caco-2、CYP3A4、hERG、HOB、MN性质分别设计了基于逻辑回归、决策树和集成模型( Xgboost ) 的二分类预测模型,通过训练效果为不同性质选择不同的预测模型,完成ADMET性质的预测。
针对问题4,为了寻找能够使化合物对抑制ERα具有更好的生物活性,同时具有更好的ADMET性质的分子描述符,以及这些分子描述符在什么取值或者处于什么取值范围,文章设计了两个模型:(1)基于****ADMET 性质5 合1 和遗传算法的求解模型:首先将ADMET的5个性质合为一个性质,然后对于化合物活性采用第****2 问的回归模型,筛选出化合物活性较好时的分子描述符;对于一维ADMET性质采用第****3 问的二分类模型,筛选出ADMET性质较好时的分子描述符,然后求并集,获得同时满足两种情况的分子描述符;最后利用遗传算法获取分子描述符的取值范围。(2)基于多目标优化算法和遗传算法的求解模型:首先用多目标优化方法根据ADMET的5列数据筛选出分子描述符数据;使用第2问的回归方法筛选出符合活性的要求的分子描述符数据,再求并集,获得同时满足两种情况的分子描述符;最后利用遗传算法获取分子描述符的取值范围。
经实验验证,文章提出的算法能够满足分子描述符的筛选以及化合物活性的预测,同时能够求出满足要求的取值范围,能够为潜在活性化合物的筛选提供一定的助力,对于推动乳腺癌的治疗有重要的作用。
关键词:线性回归模型;Lasso回归模型;岭回归模型;弹性网络回归模型;随机森林模型;二分类(逻辑回归、决策树和集成模型)预测算法;多目标优化;遗传算法
1 问题的重述
1.1 问题背景
乳腺癌是目前世界上最常见,致死率较高的癌症之一。乳腺癌的发展与雌激素受体密切相关,有研究发现,雌激素受体α亚型(Estrogen receptors alpha, ERα)在不超过10%的正常乳腺上皮细胞中表达,但大约在50%-80%的乳腺肿瘤细胞中表达;而对ERα基因缺失小鼠的实验结果表明,ERα确实在乳腺发育过程中扮演了十分重要的角色。目前,抗激素治疗常用于ERα表达的乳腺癌患者,其通过调节雌激素受体活性来控制体内雌激素水平。因此,ERα被认为是治疗乳腺癌的重要靶标,能够拮抗ERα活性的化合物可能是治疗乳腺癌的候选药物。如图1是雌激素受体的表达方式,雌激素受体可与激素发生特异性结合而形成激素-受体复合物,使激素发挥其生物学效应。
目前,在药物研发中,为了节约时间和成本,通常采用建立化合物活性预测模型的方法来筛选潜在活性化合物。具体做法是:针对与疾病相关的某个靶标(此处为ERα),收集一系列作用于该靶标的化合物及其生物活性数据,然后以一系列分子结构描述符作为自变量,化合物的生物活性值作为因变量,构建化合物的定量结构-活性关系(Quantitative Structure-Activity Relationship, QSAR)模型,然后使用该模型预测具有更好生物活性的新化合物分子,或者指导已有活性化合物的结构优化,图2是QSAR模型的设计过程。
一个化合物想要成为候选药物,除了需要具备良好的生物活性(此处指抗乳腺癌活性)外,还需要在人体内具备良好的药代动力学性质和安全性,合称为ADMET(Absorption吸收、Distribution分布、Metabolism代谢、Excretion排泄、Toxicity毒性)性质。其中,ADME主要指化合物的药代动力学性质,描述了化合物在生物体内的浓度随时间变化的规律,T主要指化合物可能在人体内产生的毒副作用。一个化合物的活性再好,如果其ADMET性质不佳,比如很难被人体吸收,或者体内代谢速度太快,或者具有某种毒性,那么其仍然难以成为药物,因而还需要进行ADMET性质优化。在本文中,仅考虑化合物的5种ADMET性质,分别是:1)小肠上皮细胞渗透性(Caco-2),可度量化合物被人体吸收的能力;2)细胞色素P450酶(Cytochrome P450, CYP)3A4亚型(CYP3A4),这是人体内的主要代谢酶,可度量化合物的代谢稳定性;3)化合物心脏安全性评价(human Ether-a-go-go Related Gene, hERG),可度量化合物的心脏毒性;4)人体口服生物利用度(Human Oral Bioavailability, HOB),可度量药物进入人体后被吸收进入人体血液循环的药量比例;5)微核试验(Micronucleus,MN),是检测化合物是否具有遗传毒性的一种方法。
1.2 问题描述
本文需要根据实际问题,根据提供的ERα拮抗剂信息(1974个化合物样本,每个样本都有729个分子描述符变量,1个生物活性数据,5个ADMET性质数据),构建化合物生物活性的定量预测模型和ADMET性质的分类预测模型,从而为同时优化ERα拮抗剂的生物活性和ADMET性质提供预测服务,从而求解以下问题:
问题一: 根据文件“Molecular_Descriptor.xlsx”和“ERα_activity.xlsx”提供的数据,针对1974个化合物的729个分子描述符进行变量选择,根据变量对生物活性影响的重要性进行排序,并给出前20个对生物活性最具有显著影响的分子描述符(即变量),并请详细说明分子描述符筛选过程及其合理性。
问题二:结合问题1,选择不超过20个分子描述符变量,构建化合物对ERα生物活性的定量预测模型,请叙述建模过程。然后使用构建的预测模型,对文件“ERα_activity.xlsx”的test表中的50个化合物进行IC50值和对应的pIC50值预测,并将结果分别填入“ERα_activity.xlsx”的test表中的IC50_nM列及对应的pIC50列。
问题三:利用文件“Molecular_Descriptor.xlsx”提供的729个分子描述符,针对文件“ADMET.xlsx”中提供的1974个化合物的ADMET数据,分别构建化合物的Caco-2、CYP3A4、hERG、HOB、MN的分类预测模型,并简要叙述建模过程。然后使用所构建的5个分类预测模型,对文件“ADMET.xlsx”的test表中的50个化合物进行相应的预测,并将结果填入“ADMET.xlsx”的test表中对应的Caco-2、CYP3A4、hERG、HOB、MN列。
问题四:寻找并阐述化合物的哪些分子描述符,以及这些分子描述符在什么取值或者处于什么取值范围时,能够使化合物对抑制ERα具有更好的生物活性,同时具有更好的ADMET性质(给定的五个ADMET性质中,至少三个性质较好)。