1.赛题背景解析
这次的赛事,就是希望通过对模型进行优化,得到一个能准确预测PROTACs降解能力的大模型,从而为寻找更多具有生物学意义的PROTAC。所以,要求选手使用提供的包含了多个与PROTACs降解能力相关的字段的demo数据集进行训练和验证模型。
因为赛事提供的数据有限,所以也允许选手自行检索并扩充训练数据。
于是,随手在Pubmed上找了一下,文献不少,并且分数也不低,但要从这些文献中提取中关键信息,还是有一定难度的。写一个爬虫,把文献的名称,DOI,IF还有摘要爬下来,然后通过摘要提取关键信息,作一个简单的筛选,可能可以得到有用的数据,可以试一下。
然后又随手点开一篇NC的文献,大概看了一下。在《分枝杆菌中的靶向蛋白质降解揭示了抗菌作用并增强了抗生素功效》这篇文献中,通过整合 72 种候选蛋白质的实验筛选和机器学习,发现药物诱导的与细菌 ClpC1P1P2 蛋白水解复合物的接近会导致许多内源性蛋白质的降解,尤其是那些具有无序末端的蛋白质。此外,分枝杆菌必需蛋白的靶向蛋白降解,可抑制细菌生长并增强现有抗菌化合物的作用。这一研究结果提供了生物学原理来选择和评估未来结核分枝杆菌PROTAC 开发的有吸引力的目标,既作为独立的抗生素,也作为现有抗生素功效的增强剂[1]。
由此可见,这个项目还是挺有前景的,值得花时间和精力去钻研一下。
[1]Won HI, Zinga S, Kandror O, et al. Targeted protein degradation in mycobacteria uncovers antibacterial effects and potentiates antibiotic efficacy. Nat Commun. 2024;15(1):4065. Published 2024 May 14. doi:10.1038/s41467-024-48506-8
2.数据字段理解
进入baseline中下载了train_data和test_data,在这个matrix中,比较重要的是:uuid(唯一标识符)、Label(降解能力的标签,0表示降解能力较差,1表示降解能力好)、 Target(目标蛋白,即PROTACs设计来降解的特定蛋白质)。更多具体参数可见于Task2:赛题深入解析。
其中,uuid和Label就是最后生成的结果,也是最后提交结果的主要内容。
3.预测目标
- 选手需要预测PROTACs的降解能力,具体来说,就是预测
Label字段的值。
- 根据
DC50和Dmax的值来判断降解能力的好坏:- 如果
DC50大于100nM且Dmax小于80%,则Label为0; - 如果
DC50小于等于100nM或Dmax大于等于80%,则Label为1。
- 如果
4.要做什么
学习手册中提供了两篇参考文献,让我们来看看参考文献主要说了什么。
参考文献1《小分子靶向降解蛋白质》:
回顾了使用小分子选择性降解蛋白质的最新进展。首先,重点介绍具有直接临床应用的全小分子技术。其次,描述了可能在生物医学研究界得到更广泛认可的技术,这些技术几乎不需要或根本不需要合成化学。除了作为创新的研究工具外,这些控制细胞内蛋白质水平的新方法还提供了开发针对目前药物不易处理的蛋白质的新型疗法的潜力。
但第二篇,The Role of E3 Ligases in Targeted Protein Degradation,我在Pubmed和PMC,还有Google学术上都没找到。
4.1 接下来要做的,就是大量阅读文献,明确各参数间的关系,这对后面的模型调参很重要。
4.2 熟悉两个数据库的使用。
RDKit官方文档:一个开源化学信息学软件库,用于处理化学分子和相关数据
Biopython官方文档:用于生物计算的Python库
最后,带上个tag #ai夏令营#datawhale#夏令营,一起过暑假吧,打工人。