赛题解读
赛题背景
随着mRNA疫苗在新冠预防领域取得成功,核酸类药物的研发获得了越来越多的关注。本次比赛聚焦于通过机器学习技术,利用化学修饰后的siRNA序列来预测RNA干扰(RNAi)机制下对靶基因(target gene)的沉默效率,这一指标与药物实际疗效直接相关。RNAi是生物体内天然存在的一种基因表达调控机制,通过抑制靶基因的表达来实现降低目标蛋白量的目的,这一机制一般可通过siRNA实现。目前开源的数据库中,以RNA主干序列(裸序列)为主,缺少相应的化学修饰数据。而本赛题特别关注了化学修饰对siRNA序列功能的影响,化学修饰对siRNA的毒性、体内稳定性、靶向效果、药效等具有重大影响,在实际药物设计中至关重要。
mRNA是基因表达为性状中十分关键的部分。在我的理解中,siRNA能阻止靶基因性状的表达,以此来减少致病基因的表达,做到治疗、预防疾病。在本赛题中,我们着重关注了化学修饰对siRNA的影响,通过现有的文献资料,训练出能预测有不同化学修饰的siRNA的基因沉默效率。
尝试优化程序
修改片段长度及步幅大小
我首先减少了片段长度、减小了步幅大小,在我现在的想法中,这样能够细化基因片段、减少信息的损失,但是我修改过后发现正确率并没有发生变化,与原来的相同。不过这样的原因也可能是修改的幅度不够大,或者两者一起修改会减小对预测的作用等,还需要后续经过多次实践才能知道。
修改每次迭代次数(epoch)
按照我自己的理解,我将epoch调高,能让模型经历更多次的训练,达到提高准确率的目的,最后的结果确实让分数有了轻微的提高,但是因为提交次数有限,现在还没能做更多的尝试,后续需要在这里作进一步研究。不过要注意太多次的训练可能会出现过拟合的结果,反而起到反作用。
修改学习率
我知道学习率的修改能为模型带来改进,但我不确定应该怎么改才能提高效率,所以第一次我选择把学习率调大0.005,果不其然失败了,得到了准确率更低的模型,但我现在已经没有提交机会了,所以只能等第三阶段再尝试了!
其他
找到了之前学习时使用的RNN和LSTM模型,接下来的赛段我想尝试使用这两种模型看看能不能得到准确率更高的结果。